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迈克 尔 … 尼尔森 (Michael Nielsen) 
计算 机 科学 家 、 量 子 物理 学 家 、 科 普 作 
家 ，Y Combinator Research 的 研究 
Fellow， 曾 受 邀 在 哈佛 大 学 、 斯 坦 福 大 
学 、 麻 省 理工 学 院 、 剑 桥 大 学 、 牛 津 大 
学 等 高 校 以 及 谷歌 和 微软 等 公司 做 主题 
演讲 ， 另 著 有 高 分 作品 《 重 塑 发 现 》 和 
《量子 计算 和 量子 信息 》。 


朱 小 虎 


University Al 创始 人 兼 首 席 科 学 家 、 
Center for Safe AGI 创 始 人 、 谷 歌 开 发 
者 机 器 学 习 专家 、 百 度 深度 学 习 布 道 者 。 
和 团队 核心 成 员 一 起 创建 了 TASA、DL 
Center ( 深度 学 习 知识 中 心 全 球 价值 网 
络 ) 和 Al Growth ( 行业 智库 培训 ) 等 。 
举办 过 多 场 国 际 性 人 工 智 能 峰会 和 活动 。 
在 多 个 技术 平台 写 下 了 近 百 万 字 的 人 工 智 
能 精品 技术 内 容 。 曾 受 邀 为 多 所 国内 高 校 
制定 人 工 智 能 学 习 规划 和 教授 人 工 智能 前 
沿 课 程 ， 也 曾 为 多 家 世界 500 强 企业 提供 
人 工 智能 方面 的 战略 布局 建议 及 落地 实施 
等 方面 的 咨询 建议 。 














效 字 有 版权 声明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 
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内 容 提 要 
本 书 深入 讲解 神经 网 络 和 深度 学 习 技 术 ， 侧 重 于 六 释 深 度 学 习 的 核心 概念 。 作 者 以 技术 原理 为 导 


向 ， 辅 以 贯穿 全 书 的 MNIST 手写 数字 识别 项 目 








示例 ， 介 绍 神经 网 


络 架 人 反 向 传播 算法 、 过 拟 合 解决 方 





案 、 卷 积 神经 网 络 等 内 容 ， 以 及 如 何 利用 这 些 知 识 改进 深度 学 习 项 目 。 学 完 本 书后 ， 读 者 将 能 够 通过 编写 





Python 代码 来 解决 复杂 的 模式 识别 问题 。 


本 书 适 合 深 度 学 习 研 究 人 员 和 爱好 者 阅读 。 
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这 是 一 本 非常 好 的 深度 学 习 入 门 书 ， 相 信 一 定 会 得 到 大 家 的 喜爱 。 


一 一 李 航 
字 节 跳动 科技 有 限 公司 人 工 智 能 实验 室 总 监 、ACL 会 士 、IEEE 会 士 、ACM 杰出 科学 家 








这 本 书 从 神经 网 络 和 深度 学 习 的 基本 原理 入 手 , 详细 地 解释 了 神经 网 络 和 深度 学 习 的 核心 概 
念 ， 以 数字 识别 为 例 , 介绍 了 有 具体 的 实现 技术 和 编程 细节 ， 兼 顾 理论 和 实践 ， 是 深入 了 解 神经 网 
络 和 深度 学 习 的 一 本 好 书 。 

































































一 马 少 平 
清华 大 学 计算 机 系 教授 、 博 士 生 导 师 





这 本 书 当年 以 连载 的 方式 在 网 站 上 供 读 者 免费 阅读 , 我 从 看 完 第 1 音 开 始 就 被 其 深入 浅 出 的 
文字 以 及 清晰 的 代码 实现 所 吸引 ,于 是 便 开始 “ 追 读 ”, 后 来 还 将 其 列 为 我 在 哈工大 开设 的 “深度 
学 习 技术 ”研究 生 课程 的 参考 书 。 为 了 方便 更 多 中 国 读者 阅读 这 本 书 ， 朱 小 虎 先 生 耗 费 了 不 少 精 
力 将 其 翻译 为 中 文 并 开源 ， 产 生 了 广泛 的 影响 。 我 所 在 的 哈工大 SCIR 研究 中 心 公众 号 于 2015 年 
也 对 中 文 版 进行 了 连载 , 阅读 量 总 计 已 超过 5 万 。 相信 这 本 书 的 正式 出 版 一 定 会 让 更 多 的 读者 受益 。 


























一 一 车 万 翔 
哈尔滨 工业 大 学 计算 机 科学 与 技术 学 院 信 息 检 索 研 究 中 心 教 授 、 博 士 生 导师 

















这 是 一 本 独特 而 有 趣 的 神经 网 络 人 门 书 。 它 从 图 像 分 类 的 例子 人 手 , 一 步 步 讲 解 概念 、 算 法 、 
代码 及 一 些 基 本 原理 , 最 后 还 对 实现 通用 人 工 智能 进行 了 讨论 。 这 本 书 的 细致 程度 基本 上 做 到 了 
“手把手 ”教学 ， 非 常 适合 初学 者 ， 在 顺利 入 门 的 同时 还 能 激发 进一步 学 习 的 兴趣 。 译 者 在 翻译 
时 也 下 了 大 量 功夫 ， 对 代码 的 注释 均 进行 了 翻译 。 期 待 这 本 书 能 照 亮 更 多 人 的 人 工 智能 之 路 。 


一 一 俞 扬 


南京 大 学 人 工 智 能 学 院 教授 、 博 士 生 导 师 


























2 ”本 书 先 誉 























这 是 一 位 物理 学 家 写 的 机 融 学 习 书 ， 内 容 清晰 易 懂 ， 对 神经 网 络 的 描述 也 直观 形象 ,非常 适 
合用 来 入 门神 经 网 络 和 深度 学 习 。 


一 一 钱 锡 鹏 
复旦 大 学 计算 机 学 院 教授 、 博 士 生 导 师 





这 是 一 本 关于 神经 网 络 和 深度 学 习 的 “亲近 ” 易 读 的 书 , 它 将 带领 你 轻松 入 门人 工 智能 世界 。 


一 一 张 伟 楠 
上 海 交 通 大 学 计算 机 科学 与 工程 系 副 教授 、 博 士 生 导师 


这 本 书 深入 浅 出 地 介绍 了 神经 网 络 的 理论 基础 和 技术 发 展 ,以 及 与 深度 学 习 之 间 的 关系 , 是 
一 本 不 可 多 得 的 好 书 。 朱 小 虎 先 生 本 着 开放 开源 的 态度 和 精神 ， 将 此 经 典 书 翻译 为 中 文 ， 让 更 多 
的 深度 学 习 爱 好 者 可 以 近 距 离 了 解 其 核心 技术 , 译文 语言 流畅 生动 , 通过 丰富 的 示例 和 代码 实践 
做 到 了 知行 合 一 。 我 向 广大 读者 强烈 推荐 这 本 书 。 


























一 一 王 昊 奋 

同济 大 学 特聘 研究 员 、OpenKG 联合 创始 人 

如 今 的 深度 学 习 书 多 得 令 人 眼花 练 乱 ， 有 些 是 文字 加 公式 , 读 起 来 枯燥 无 味 ， 而 这 本 量子 物 

理学 家 笔下 的 好 书 以 一 个 个 生动 的 实例 驱动 你 恨不得 一 口气 读 完 ! 我 推荐 给 那些 希望 迅速 实现 从 
0 到 1 的 人 工 智能 入 门 者 。 








一 一 徐 涵 


华为 欧洲 研究 院 高 级 战略 规划 经 理 


译 者 厅 





我 们 已 经 进入 21 世纪 的 第 三 个 十 年 ， 这 也 是 人 工 智能 领域 飞速 发 展 的 新 阶段 。 深 度 学 习 本 
身 已 经 成 为 最 基础 的 一 种 技术 ， 相 关 的 众多 应 用 遍及 各 行 各 业 。 











我 在 研究 生 期 间 学 习 过 神经 网 络 , 不 过 那 时 候 相关 的 研究 还 仅 限 于 科研 领域 , 封 藏 在 象牙 塔 
里 。 虽然 已 有 一 些 关 于 神经 网 络 的 书 , 但 是 由 于 其 本 身 的 特点 ,在 当时 并 不 受 人 关注 。 让 我 真正 
确立 将 深度 学 习作 为 自己 重要 努力 方向 的 ， 是 2014 年 在 上 海 召 开 的 信息 与 知识 管理 国际 会 议 
( CIKM )。 在 这 次 学 术 会 议 上 , 来 自 谷 歌 的 Jeff Dean 在 Keynote 报告 中 介绍 了 深度 学 习 领 域 的 发 
展 ,其 中 很 多 例子 令 人 眼前 一 亮 。 或 许 是 因为 程序 员 的 偶像 效应 , 我 立马 开始 了 对 深度 学 习 的 正 
式 探 索 。 那 时 候 还 没有 太 多 英文 书 针 对 性 地 介绍 深度 学 习 ,， 所 以 学 习 过 程 其 实 相当 痛苦 。 在 通过 
众多 人 工 智能 或 者 机 器 学 习 的 书 掌握 了 一 定 的 深度 学 习 知 识 之 后 , 我 接触 到 本 书 的 英文 版 , 并 在 
读 完 后 对 很 多 问题 有 了 清楚 的 认识 。 本 书 既 包含 基础 的 数学 知识 和 神经 网 络 理论 , 也 包含 具体 的 
技术 和 编程 细节 。 另 外 ,， 书 中 加 入 了 作者 对 智能 本 质 的 很 多 思考 ,帮助 我 培养 了 一 种 乐观 的 探索 
精神 , 这 使 它 从 众多 相关 主题 的 书 中 脱颖而出 。 之 后 , 我 经 常 将 本 书 推荐 给 周围 的 同学 和 工作 伙伴 。 
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我 希望 更 多 的 中 国 深度 学 习 爱 好 者 能 够 受益 于 这 部 品质 上 乘 的 作品 , 于 是 就 开始 了 漫长 的 翻 
译 之 旅 。 这 个 过 程 前 后 经 历 了 一 年 左右 。 之 后 , 我 将 其 开源 ， 并 发 布 在 简 书 、UAI 人 工 智能 公众 
号 、GitHub 等 程序 员 喜 好 的 平台 上 。 因 为 一 些 机 缘 巧 合 ， 我 创立 了 专注 于 培养 人 工 智能 人 才 的 
教育 机 构 University AI， 为 企业 提供 人 工 智 能 培训 和 咨询 服务 。 本 书 相应 地 成 为 了 许多 企业 的 指 
定 教科 书 ， 受 益 者 不 仅 有 数 万 名 技术 人 员 ， 而 且 也 有 不 少 投资 人 和 企业 高 管 。University AI 开设 
了 不 同 层次 的 人 工 智能 课程 ， 并 不 断 地 引进 最 先进 的 人 工 智能 技术 ， 曾 为 英特尔 、 华 为 、 百 度 、 
上 海 交 通 大 学 等 公司 和 高 校 开 设 人 工 智能 前 治 课程 , 目前 在 百度 人 工 智能 平台 上 提供 了 深度 学 习 
课程 。 感 兴趣 的 读者 可 以 在 百度 AI Studio 上 搜索 “深度 学 习 14 种 企业 级 实战 ”。 



































不 久 前 ， 一 名 想 人 门 深度 学 习 的 新 人 请 我 推荐 一 本 书 ， 我 首先 想到 的 便 是 本 书 。 这 是 因为 ， 
它 能 如 同 火 炬 一 般 照 亮 你 前 进 的 道路 。 作 者 以 其 独特 的 阐述 方式 为 本 书 赋 了 予 了 有 趣 的 灵魂 。 现 在 ， 














我 响应 本 书 最 后 一 章 的 号 召 一 一 对 真正 的 智能 进行 探索 , 正 组 建 通用 人 工 智能 研究 机 构 , 希望 能 
够 不 断 突破 人 类 认 知 的 边界 , 找到 打开 智能 大 门 的 一 把 钥匙 。 我 诚挚 地 邀请 对 此 感 兴趣 的 读者 联 
系 我 ， 这 将 是 男 一 段 激 动人 心 的 旅途 。 




















最 后 我 想 说 的 是 ， 本 书 的 引进 过 程 真 的 很 不 容易 〈 也 有 不 少 故 事 )。 借 此 机 会 ， 我 想 感 谢 图 
灵 公 司 帮 助 本 书 真 正 地 出 现在 中 国 读者 面前 。 














朱 小 虎 
微 信 : workinian 


电子 邮箱 : neil@universityai.com 
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本 书 主题 


本 书 将 探讨 以 下 两 个 主题 。 








口 神经 网 络 : 一 种 受 生物 学 启发 的 编程 范式 ， 能 够 让 计算 机 从 可 观测 数据 中 学 习 。 
口 深度 学 习 : 用 于 神经 网 络 学 习 的 一 套 强 大 的 技术 。 



























































神经 网 络 和 深度 学 习 是 目前 图 像 识 别 \ 语 音 识别 和 自然 语言 处 理 等 领域 中 很 多 问题 的 最 佳 解 
决 方案 ,本 书 将 讲解 神经 网 络 和 深度 学 习 背 后 的 核心 概念 。 




















内 容 设置 


神经 网 络 是 最 佳 编 程 范式 之 一 。 传统 的 编程 方法 告诉 计算 机 做 什么 , 把 大 问题 分 解 成 许多 小 
问题 ,明确 定义 任务 ,以 便 计算 机 执行 。 神 经 网 络 不 直接 告诉 计算 机 如 何 解 决 问题 ,而 让 它 从 可 
观测 数据 中 学 习 ， 让 它 自 己 找 出 解决 问题 的 方法 。 









































主动 从 数据 中 学 习 听 上 去 很 妙 ， 然 而 直到 2006 年 ， 除 了 一 些 特殊 问题 ， 神 经 网 络 仍 未 能 
超越 传统 方法 。2006 年 ， 名 为 “深度 神经 网 络 ” 的 学 习 技术 诞生 ,并 引发 了 变革 。 现 在 ， 人 们 
将 这 些 技 术 称 为 “深度 学 习 ”。 随 着 这 些 年 的 发 展 ， 如 今 深度 神经 网 络 和 深度 学 习 在 计算 机 视 
觉 、 语 音 识别 、 自 然 语言 处 理 等 许多 问题 上 表现 不 俗 , 已 被 谷歌 、 微 软 、Facebook 等 公司 大 规 
模 采 用 。 
























































本 书 则 在 介绍 神经 网 络 的 核心 概念 和 深度 学 习 的 现代 技术 , 以 及 如 何 使 用 神经 网 络 和 深度 学 
习 解 决 复杂 的 模式 识别 问题 。 有 了 神经 网 络 和 深度 学 习 的 应 用 基础 后 , 你 可 以 将 其 用 于 解决 实际 


问题 。 





























以 原理 为 导向 


本 书 将 细致 盖 释 神经 网 络 和 深度 学 习 的 核心 概念 ,而 不 是 笼统 地 罗列 想法 。 这 些 核 心 概 念 是 
理解 其 他 新 技术 的 基础 ， 类比 学 习 编 程 语 言 的 话 ,， 这 相当 于 掌握 一 种 新 语言 的 核心 语法 、 库 和 数 
据 结构 。 你 可 能 只 了 解 某 一 门 编程 语言 的 一 小 部 分 〈 许 多 编程 语言 的 标准 库 非 常 庞大 )， 但 新 的 
库 和 数据 结构 会 容易 理解 。 


这 意味 着 本 书 不 会 重点 讲授 如 何 使 用 特定 的 神经 网 络 库 。 如 果 你 想 学 习 某 个 程序 库 的 用 法 ， 
可 以 参考 相关 教程 和 文档 。 请 注意 , 这样 可 能 暂时 解决 了 某 些 问 题 , 然而 如 果 想 理解 神经 网 络 的 
运行 机 制 , 以 及 未 来 几 年 都 不 会 过 时 的 原理 , 那么 只 学 习 流 行 的 程序 库 是 不 够 的 ,还 需要 掌握 神 
经 网 络 的 工作 原理 。 技 术 兴衰 起 落 ， 而 原理 是 长 久 的 。 






















































































注重 实践 

本 书 将 通过 解决 具体 问题 一 一 教 计算 机 识别 手写 数字 一 一 来 介绍 神经 网 络 和 深度 学 习 的 核 
心理 论 。 这 个 问题 用 常规 方法 解决 的 话 非 常 困难 ， 诉 诸 神经 网 络 则 简单 得 多 ， 只 需 几 十 行 代 码 ， 
不 涉及 特别 的 库 。 此外, 我 们 会 通过 多 次 迭代 来 改进 程序 , 贯彻 神经 网 络 和 深度 学 习 的 核心 思想 。 


















































这 意味 着 阅读 本 书 需要 拥有 一 定 的 编程 经 验 , 但 你 不 必 是 专业 程序 员 。 本 书 代 码 是 用 Python 
编写 的 ,Python 语法 简单 易学 ， 新 手 也 可 以 很 快 和 人 门 。 我 们 将 开发 一 个 小 型 神经 网 络 库 ， 它 可 以 
用 于 试验 和 加 强 理解 。 本 书 代 码 下 载 地 址 为 : https://github.com/mnielsen/neural-networks-and-deep- 
learning”。 基 于 本 书 内 容 ， 你 可 以 构建 出 一 个 功能 完备 的 生产 级 神经 网 络 库 。 




































































阅读 本 书 需要 一 定 的 数学 基础 。 很 多 章节 涉及 一 些 数学 知识 ,但 通常 只 是 初等 代数 和 函数 图 ， 
大 多 数 读 者 应 该 可 以 看 懂 ; 偶尔 会 涉及 高 等 数学 , 但 我 已 经 组 织 好 内 容 结构 ， 即 使 不 懂 某 些 数学 
细节 ， 也 不 妨碍 对 本 书 内 容 的 整体 理解 。 第 2 章 涉及 多 元 微 积分 和 线性 代数 的 些许 内 容 , 为 了 方 
便 阅 读 , 章 首 给 出 了 指导 。 如 果 确 实感 到 理解 困难 , 可 以 直接 跳 到 那 一 章 的 总 结 部 分 。 无 论 如 何 ， 
无 须 一 开始 就 担心 内 容 过 难 。 























本 书 兼顾 理论 和 实践 。 掌 握 神经 网 络 的 基本 概念 是 很 好 的 开端 。 我 们 将 开发 实际 可 用 的 代 
码 ， 而 不 仅仅 讨论 抽象 的 理论 ， 你 可 以 探索 和 扩展 这 些 代 码 。 有 了 理论 和 实践 的 基础 ， 你 可 以 走 


得 更 远 。 


























GD 你 可 以 直接 访问 本 书 中 文 版 页 面 ， 下 载 本 书 项 目的 源 代 码 : http://www.ituring.cn/book/2789 (也 可 查看 或 提交 勘误 )。 
一 一 编者 注 
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关于 练习 和 问题 


科技 类 图 书 的 作者 往往 会 呼吁 读者 要 多 做 练习 exercise )， 多 解决 问题 ( problem )， 我 对 此 
不 以 为 然 。 如 果 不 这 么 做 会 有 什么 不 良 后 果 吗 ?当然 不 会 , 你 省 了 时 间 , 但 会 影响 深入 理解 。 有 
时 这 么 做 是 值得 的 ， 有 了 时 却 不 然 。 





























对 于 本 书 要 怎么 做 呢 ? 建议 你 尝试 去 做 大 部 分 练习 ， 但 不 必 去 解决 所 有 的 问题 。 








你 应 该 做 大 部 分 练习 ,因为 这 样 做 有 助 于 你 检验 自己 是 否 很 好 地 理解 了 所 学 内 容 。 如 果 你 不 
能 轻松 完成 一 个 练习 , 说明 对 基础 知识 掌握 不 牢 。 当 然 ， 如 果 侦 尔 一 个 练习 困 住 了 你 ,可 能 只 是 
因为 你 对 个 别 知识 点 理解 有 偏差 ,继续 前 行 便 会 柳暗花明 。 但 是 如 果 感 到 大 多 数 练习 很 难 ， 那么 
就 需要 重 温 前 面 的 内 容 了 。 


















































问题 是 另外 一 回 事 ， 解 决 问题 比 完成 练习 更 难 ， 往 往 需 要 付出 更 多 努力 。 有 的 问题 很 棘手 ， 
当然 ， 面 对 困境 ， 耐 心 是 加 强 理解 和 内 化 知识 的 唯一 途径 。 




















因此 ， 不 建议 你 去 解决 所 有 问题 ， 自 己 开 发 项 目 会 更 好 。 也 许 你 想 用 神经 网 络 来 分 类 曲目 ， 
或 者 预测 股票 价格 。 如 果 找 到 了 一 个 感 兴趣 的 项 目 ,可 以 忽略 本 书 中 的 问题 ， 或 者 把 它们 简单 地 
应 用 于 自己 的 项 目 中 。 解 决 再 多 的 问题 ， 也 不 及 钻研 感 兴趣 的 项 目 收获 得 多 。 兴 趣 是 精通 技艺 的 
关键 。 


当然 ， 当 下 你 可 能 缺乏 这 样 一 个 项 目 ， 这 没有 关系 。 解 决 本 书 中 的 问题 可 以 激发 动力 ,启发 
你 找到 自己 的 创新 项 目 。 
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扫描 如 下 二 维 码 ， 即 可 购买 本 书 
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动态 示例 


描 如 下 二 维 码 ， 即 可 获取 本 书 配套 的 动态 示例 。 
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使 用 神经 网 络 识 别 手 与 数字 











人 类 的 视觉 系统 堪 称 世界 奇迹 。 看 看 如 图 1-1 所 示 的 手写 数字 序列 。 


F074 


图 1-1 








大 多 数 人 能 轻松 认 出 这 些 数字 是 504192， 而 这 容易 让 我 们 忽视 其 背后 的 复杂 性 。 人 的 大 肯 
半球 中 有 一 个 初级 视觉 皮层 ， 常 称 为 V1， 它 包含 约 1.4 亿 个 神经 元 ， 神 经 元 间 的 连接 有 数 百人 
条 。 然 而 ， 人 类 的 视觉 系统 并 不 只 涉及 V1， 还 包括 整个 视觉 皮层 一 一 V2、V3、V4 和 V5， 它 个 
进行 更 加 复杂 的 图 像 处 理 。 人 脑 就 像 一 台 超 级 计算 机 ， 历 经 数 亿 年 的 进化 , 最 终 能 够 很 好 地 以 
觉 感知 世界 。 识 别 手写 数字 并 不 简单 。 尽 管 人 类 非常 擅长 理解 眼睛 接收 到 的 信息 ,但 几乎 所 有 日 
过 程 都 是 无 意识 的 ， 所 以 我 们 通常 体会 不 到 自身 视觉 系统 解决 问题 的 困难 程度 。 
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如 果 尝 试 编写 计算 机 程序 来 识别 以 上 数字 , 就 会 发 现 视觉 模式 识别 的 复杂 性 ， 人 类 可 以 轻松 
完成 的 任务 顿时 变 得 困难 重重 。 识 别 形 状 时 ， 对 于 “数字 9 的 上 半 部 分 是 一 个 圈 ， 右 下 部 分 是 一 
条 竖 线 ”这 样 的 简单 直觉 ， 实 际 上 很 难 用 算法 表达 出 来 。 如 果 试 着 细 化 识别 规则 以 提高 准确 度 ， 
很 快 就 会 出 现 各 种 异常 和 特殊 的 情形 ， 似 乎 毫 无 希望 。 














神经 网 络 以 其 他 方式 应 对 这 个 问题 ， 其 主要 思路 是 获取 大 量 手写 数字 一 一 常 称 作 训练 样本 ， 
如 图 1-2 所 示 ， 然 后 开发 出 一 个 系统 ， 从 这 些 训练 样本 中 学 习 。 换 言 之 ， 神 经 网 络 使 用 样本 来 自 
动 推断 识别 手写 数字 的 规则 。 另 外 , 通过 增加 训练 样本 的 数量 ,神经 网 络 可 以 学 到 关于 手写 数字 
的 更 多 信息 ， 这 样 就 能 够 提升 自身 的 准确 度 了 。 图 1-2 展示 了 100 个 用 作 训 练 样本 的 手写 数字 ， 
而 使 用 数 千 或 者 数 百 万 其 至 数 十 亿 的 训练 样本 ， 可 以 得 到 更 好 的 手写 数字 识别 器 。 



































2 第 1 章 使 用 神经 网 络 识别 手写 数字 
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图 1-2 











本 章 将 实现 一 个 可 以 识别 手写 数字 的 神经 网 络 。 这 个 程序 仅 有 74 行 ， 并且 不 使 用 特别 的 神 
经 网 络 库 。 然 而 ,无 顷 人 类 帮助 ， 这 个 小 型 神经 网 络 识别 数字 的 准确 率 就 能 达到 96%。 后 文 会 介 
绍 能 将 准确 率 提 升 至 99% 的 技术 。 实际 上 , 卓越 的 商业 级 神经 网 络 已 经 被 银行 和 邮局 分 别 用 于 核 
查账 单 和 识别 地 址 了 。 














之 所 以 关注 手写 数字 识别 问题 ， 是 因为 它 是 神经 网 络 研究 中 的 原型 问题 。 作 为 原型 ， 它 具备 
一 个 关键 点 一 一 颇具 挑战 性 。 识 别 手写 数字 并 不 容易 ， 但 也 没有 难 到 需要 极其 复杂 的 解决 方法 ， 
或 者 超大 规模 的 计算 资源 。 男 外 ， 由 它 发 展 出 了 一 些 高 级 技术 ， 比 如 深度 学 习 。 因 此 ,手写 数字 
识别 问题 会 贯穿 本 书 。 本 书 在 后 面 会 讨论 如 何 将 这 些 知识 应 用 于 其 他 计算 机 视觉 问题 以 及 语音 识 
别 、 自 然 语言 处 理 等 领域 。 











当然 , 本 章 内 容 不 仅仅 限于 编写 一 个 计算 机 程序 来 识别 手写 数字 。 随 着 内 容 推进 ， 我 们 将 学 
习 关 于 神经 网 络 的 很 多 关键 思想 ,其 中 包括 两 种 重要 的 人 工 神经 元 一 一 感知 机 和 sigmoid 神经 元 ， 
以 及 常用 的 神经 网 络 学 习 算法 一 一 随机 梯度 下 降 算法 。 本 书 会 着 重 解释 原理 , 深入 解析 神经 网 络 ; 
详尽 探讨 ， 而 不 只 是 介绍 一 些 基 本 技巧 ; 最 后 会 介绍 深度 学 习 及 其 重要 性 。 


























1.1 感知 机 


什么 是 神经 网 络 ? 首先 介绍 一 种 名 为 感知 机 的 人 工 神 经 元 。20 世纪 五 六 十 年 代 ， 科 学 家 
Frank Rosenblatt 发 明了 感知 机 ， 其 受到 了 Warren McCulloch 和 Walter Pitts 早期 研究 的 影响 。 如 
今 ， 人 们 普遍 使 用 其 他 人 工 神 经 元 模型 。 本 书 以 及 当代 多 数 神经 网 络 论著 主要 使 用 一 种 名 为 
sigmoid 神经 元 的 神经 元 模型 。 稍 后 会 介绍 sigmoid 神经 元 , 但 要 理解 sigmoid 神经 元 的 来 由 ， 需 
要 先 了 解 感知 机 。 





1.1 感知 机 3 








感知 机 接收 若干 个 二 进 制 输入 x,%,…， 并 生成 一 个 二 进 制 输出 ， 如 图 1-3 所 示 。 





1-3 中 的 感知 机 有 3 个 输入 x,x,,x; ,一般 来 说 输入 还 可 以 更 多 或 更 少 。Rosenblatt 提出 了 
一 条 计算 输出 的 简单 规则 。 他 引入 权重 w,w,,… ， 用 这 些 实数 来 表示 输入 对 于 输出 的 重要 性 。 神 
经 元 的 输出 究 竞 是 0 还 是 1， 则 由 加 权 和 》 ”,w,x, 小 于 或 大 于 某 个 阐 值 来 决定 。 类 似 于 权重 ， 阔 
值 也 是 实数 ， 且 是 神经 元 的 一 个 参数 。 更 精确 的 代数 表示 如 下 : 





























0 若 > jwx, < 闵 值 1 
1 若 》 ,wx, > 闵 值 (D) 


i 


ih - | 


这 就 是 感知 机 的 运行 机 制 。 








可 以 将 感知 机 看 作 根 据 权 重 来 做 决策 的 机 器 。 下面 举 例 阅 明 , 这 并 不 是 一 个 特别 真实 的 例子 ， 
但 是 容易 理解 , 稍 后 会 给 出 更 多 实例 。 假 设 本 周末 你 所 在 的 城市 有 个 奶酪 节 , 你 正好 喜欢 吃 奶 酷 ， 
考虑 是 否 去 看 看 。 可 以 通过 给 以 下 3 个 因素 设置 权重 来 做 出 决定 。 






































(1) 天 气 如 何 ? 
(2) 你 的 男 朋友 或 女 朋友 会 不 会 陪 你 去 ? 
(3) 庆 视 地 点 是 否 靠 近 公 共 交 通 站 点 ?假设 你 自己 没有 车 。) 















































可 以 把 这 3 个 因素 分 别 表示 为 二 进 制 变量 x 、x。 、x 。 如 果 天 气 好 , 则 x =1; 如 果 天 气 不 
好 ， 则 x =0。 类 似 地 ， 如 果 你 的 男 朋友 或 女 朋友 同 去 ，x, =1， 否 则 % =0。 同 理 ，>z 表示 交 
通 情况 。 








现在 ， 假 设 你 酷爱 奶酪， 即使 你 的 男 朋 友 或 女 朋友 不 感 兴趣 ， 而 且 不 管 多 么 大 费 周 折 ， 你 都 
乐意 去 。 也 许 你 确实 讨厌 糟糕 的 天 气 ， 而 且 如 果 天 气 太 糟 你 也 没 法 出 门 。 可 以 使 用 感知 机 来 为 这 
种 决策 建 模 。 一 种 方式 是 为 天 气 设置 权重 , 令 W =6 ,其 他 条 件 为 w, =2 和 w=2。 赋予 w 更 大 
的 值 , 表示 天 气 状况 的 重要 性 超过 男 朋 友 或 女 朋友 是 否 陪同 和 附近 有 无 交通 站 点 。 最 后 ,假设 将 
感知 机 的 阐 值 设 为 5， 这 样 就 用 感知 机 做 出 了 决策 模型 : 天 气 好 就 输出 1， 天 气 不 好 则 输出 0。 
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对 于 男 朋友 或 女 朋 友 是 否 同 去 ,或 者 附近 有 无 公共 交通 站 点 ， 输 出 其 实 没 有 差别 。 











通过 调整 权重 和 赣 值 ， 可 以 得 到 不 同 的 决策 异型 。 例 如 把 阔 值 改 为 3， 那么 感知 机 会 按照 天 
气 状况 ， 并 结合 交通 情况 和 男 朋友 或 女 朋 友 同 行 的 意愿 ， 来 得 出 结果 。 换 言 之 ,调整 闪 值 将 得 到 
不 同 的 决策 模型 。 降 低 阔 值 表 示 你 更 想 去 。 




















显然 , 感知 机 模型 不 能 完全 模拟 人 类 决策 , 但 这 个 例子 展示 了 感知 机 如 何 通 过 权衡 不 同 的 
素来 做 出 决策 。 可 以 想见 ,复杂 的 感知 机 网 络 能 够 做 出 更 精细 的 决策 ， 如 图 1-4 所 示 。 
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在 如 图 1-4 所 示 的 网 络 中 ,第 一 列 (第 一 层 ) 感 知 机 通过 权衡 输入 做 出 3 个 非常 简单 的 决策 。 
第 二 层 的 感知 机 权衡 第 一 层 的 决策 结果 并 做 出 自己 的 决策 , 因此 比 第 一 层 中 的 感知 机 做 出 的 决策 
更 复杂 、 更 抽象 。 同 理 , 第 三 层 中 的 感知 机 能 做 出 比 之 前 更 复杂 的 决策 。 通 过 这 种 方式 ,一 个 多 
层 感 知 机 网 络 可 以 做 出 复杂 精巧 的 决策 。 














顺便 提 一 下 ， 前 面 定义 感知 机 时 说 感知 机 只 有 一 个 输出 ， 而 图 1-4 中 的 感知 机 看 上 去 似乎 有 
多 个 输出 。 其实, 它 仍然 只 有 一 个 输出 图 上 感知 机 的 多 个 输出 箭头 仅仅 为 了 说 明 一 个 感知 机 的 输 
出 被 其 他 感知 机 使 用 。 跟 把 单个 输出 线条 分 又 相 比 ， 这 样 做 更 便于 理解 。 





下 面 简化 感知 机 的 数学 表达 。 条 件 了 ,wx, > 羡 值 看 上 去 有 些 宛 长 ， 可 以 更 改 两 个 符号 来 进 
行 简化 。 首 先 把 玉 ,wx, 改写 成 点 乘 ， 即 w.x= 玉 ,wx, 。 其 中 ，w 和 x 分 别 对 应 权重 和 输入 
的 向 量 。 然 后 把 阔 值 移 到 不 等 式 的 另 一 边 ， 并 用 感知 机 的 偏 置 上 = - 国 值 来 代替 。 使 用 偏 置 而 不 
是 阔 值 ， 感 知 机 的 规则 可 以 重 写 为 ; 























0 若 mw .x+p<0 


2. 
1 若 w:x+b>0 2 


给 -| 





可 以 把 偏 置 看 作对 让 感知 机 输出 1 (类 似 于 生物 学 上 的 “激活 感受 固 ”) 难 易 程度 的 估算 。 
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对 于 一 个 具有 很 大 偏 置 的 感知 机 来 说 , 输出 1 是 很 容易 的 ; 但 如 果 偏 置 是 一 个 非常 小 的 负数 ， 输 ol 
出 1 则 很 困难 。 显然, 引入 偏 置 只 是 描述 感知 机 的 一 个 很 小 的 变动 ， 后 面 会 看 到 它 将 更 进一步 地 
简化 符号 。 因 此 ， 本 书 的 后 续 部 分 不 再 使 用 阔 值 ， 而 会 使 用 偏 置 。 





























前 面 讲 过 , 感知 机 通过 权衡 不 同 的 因素 来 做 出 决策 。 感 知 机 的 另 一 种 用 法 是 执行 基本 的 逻辑 
运算 ,例如 AND、OR、NAND。 假设 有 个 感知 机 接收 两 个 输入 ， 每 个 的 权重 为 -2， 整 体 的 偏 置 
为 3， 如 图 1-5 所 示 。 





图 1-5 




















输入 00 会 产生 输出 1， 这 是 因为 (-2)*0+(-2)*0+3=3 是 正 数 。 这 里 用 星 号 * 来 表示 乘法 。 
输入 11 会 产生 输出 0， 这 是 因为 (-2)*1+ (-2)*1+3 = -1 是 负数 。 这 样 ， 感 知 机 就 实现 了 一 个 与 
非 门 ! 




















与 非 门 的 例子 表明 ,可 以 用 感知 机 来 执行 简单 的 逻辑 运算 。 实 际 上 , 可 以 用 感知 机 网 络 来 执 
行 任何 逻辑 运算 ,这 是 因为 与 非 门 是 通用 的 逻辑 运算 ,用 多 个 与 非 门 可 以 构建 出 任何 运算 。 例 如， 
可 以 用 与 非 门 构建 一 个 电路 ， 它 把 两 个 二 进 制 数 x 和 x 相 加 。 这 需要 按 位 求 和 ，xi 昌 x, ， 并 且 
当 x 和 % 都 为 1 时 进位 设 为 1， 即 进位 正好 是 按 位 乘积 xx, ， 如 图 1-6 所 示 。 


Dr- 
J )»— 和 : XN 
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进位 :xx 





















































图 1-6 





为 了 得 到 一 个 与 之 等 价 的 感知 机 网 络 , 可 以 把 所 有 与 非 门 替换 为 接收 两 个 输入 的 感知 机 , 并 
将 每 个 输入 对 应 的 权重 设 为 -2， 将 整体 偏 置 设 为 3。 结 果 得 到 如 图 1-7 所 示 的 网 络 。 请 注意 ， 右 
下 的 与 非 门 移动 了 一 点 ， 这 样 做 只 是 为 了 在 图 上 更 方便 地 画 箭头 。 








6 第 1 章 使 用 神经 网 络 识别 手写 数字 





~ 
和 : XX 
x, 3 


进位 : XX | 





图 1-7 


在 这 个 感知 机 网 络 中 ,有 一 个 部 分 值得 注意 : 最 左边 的 感知 机 的 输出 两 次 作为 底部 感知 机 的 
输入 。 前 面 定 义 感知 机 模型 时 , 没有 讲 过 是 否 允 许 这 种 双 输 出 到 同一 处 ,实际 上 这 并 不 重要 。 如 
果 不 想 要 这 种 形式 ， 可 以 把 两 条 线 合并 简化 成 一 个 权重 为 -4 的 连接 ， 而 不 是 两 个 权重 为 -2 的 连 
接 。( 如 果 这 里 不 明白 , 需要 停 下 来 仔细 思考 。) 改 动 之 后 , 原先 的 网 络 变 成 如 图 1-8 所 示 的 这 样 ， 
所 有 未 标记 的 权重 均 为 -2， 所 有 偏 置 均 为 3， 标 记 的 单个 权重 为 -4。 





























和 : XOX 





图 1-8 


前 面 把 x 和 % 这 样 的 输入 画 成 感知 机 网 络 左 边 的 浮动 变量 ,实际 上 可 以 画 一 层 额 外 的 感知 
机 一 一 输入 层 ， 来 对 输入 进行 编码 ， 如 图 1-9 所 示 。 
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根据 这 种 表示 方法 ,感知 机 有 一 个 输出 ,但 没有 输入 ， 如 图 1-10 所 示 。 


GO— 


图 1-10 











这 是 一 种 简化 ， 并 不 表示 感知 机 没有 输入 。 为 了 说 明 ， 假 设 确实 有 一 个 没有 输入 的 感知 机 ， 
那么 加 权 和 玉 ,wx, 总 会 为 0， 并且 感知 机 在 5 > 0 时 输出 1， 在 b <0 时 输出 0。 这 样 ， 感 知 机 


会 简单 输出 一 个 固定 值 ， 而 不 是 目标 值 (上 例 中 的 x )。 倒 不 如 不 要 把 输入 感知 机 看 作 感知 机 ， 
而 是 简单 地 定义 为 输出 目标 值 的 特殊 单元 x ,x,,…。 


























这 个 加 法 器 例子 演示 了 如 何 使 用 感知 机 网 络 模拟 包含 很 多 与 非 门 的 电路 。 鉴于 与 非 门 在 计算 
中 的 通用 性 ， 可 以 想见 感知 机 也 具有 通用 性 。 



































感知 机 在 计算 中 的 通用 性 既 令 人 振奋 , 又 令 人 失望 。 令 人 振奋 是 因为 它 表明 感知 机 网 络 能 像 
其 他 计算 设备 那样 强大 ; 令 人 失望 的 是 ， 它 看 上 去 不 过 是 一 种 新 的 与 非 门 ， 并 不 像 是 重大 突破 。 















































然而 , 实际 情况 要 好 很 多 。 我 们 可 以 设计 学 习 算 法 来 自动 调整 人 工 神经 元 的 权重 和 偏 置 。 这 
种 调整 可 以 自动 响应 外 部 刺激 ,而 不 需要 程序 员 直 接 干 预 。 这 些 学 习 算法 让 我 们 能 够 以 跟 传 统 逻 
辑 门 完全 不 同 的 方式 使 用 人 工 神经 元 。 有 别 于 显 式 设计 与 非 门 或 其 他 人 逻辑 门 , 神经 网 络 能 轻松 学 
会 如 何 解 决 一 些 问题 ， 这 些 问 题 有 时 很 难 直 接 用 传统 的 电路 设计 来 解决 。 
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学 习 算 法 听 上 去 很 棒 , 但 是 如 何 为 神经 网 络 设 计 这 样 的 算法 呢 ? 假设 想 用 一 个 感知 机 网 络 来 
解决 某 个 问题 ， 例 如 网 络 的 输入 是 手写 数字 的 扫描 图 像 ， 我 们 希望 神经 网 络 能 学 习 权重 和 偏 置 ， 
以 正确 分 类 这 些 数字 。 为 了 说 明 学 习 的 工作 方式 , 假设 对 网 络 中 的 权重 (或 者 偏 置 ) 做 微小 的 改 
动 , 而 输出 会 发 生 微 小 的 改变 , 如 图 1-11 所 示 。 很 快 你 就 会 看 到 , 这 种 调整 有 助 于 学 习 。( 当然 ， 
这 个 网 络 对 于 手写 数字 识别 来 说 还 是 太 简 单 了 。 ) 
































如 果 确 实 如 此 , 那么 可 以 通过 修改 权重 和 偏 置 来 调整 网 络 表现 。 假设 神经 网 络 错误 地 把 一 个 
“9” 的 图 像 分 类 为 了 “8”, 我 们 可 以 计算 如 何 修改 权重 和 偏 置 ， 以 使 神经 网 络 能 够 把 图 像 分 类 为 
“9”。 然 后 重复 这 项 工作 ， 反 复 改 动 权重 和 偏 置 来 产生 更 好 的 输出 。 神 经 网 络 正 是 通过 这 种 方式 
进行 学 习 的 。 
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权重 的 微小 改动 会 导致 输出 发 生 微小 的 改变 
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output+Aoutput 


图 1-11 


























问题 是 ,含有 感知 机 的 神经 网 络 表 现 得 并 不 理想 。 实 际 上 , 单个 感知 机 上 的 权重 或 偏 置 的 微 
小 改动 有 时 会 导致 输出 完全 翻转 ， 比 如 0 变 为 1， 进而 引起 神经 网 络 其 余部 分 的 行为 发 生 复杂 的 
剧变 。 因 此 ， 虽 然 “9” 可 能 被 正确 分 类 了 ， 但 神经 网 络 对 其 他 图 像 的 判断 很 可 能 完全 改变 了 ， 
导致 难以 通过 修改 权重 和 偏 置 来 提升 神经 网 络 的 准确 率 。 对 此 也 许 有 一 些 巧 妙 的 解决 方法 , 但 我 
们 尚 不 清楚 如 何 让 感知 机 网 络 学 习 。 


















































可 以 引入 一 种 名 为 sigmoid 神经 元 的 人 工 神 经 元 来 解决 这 个 问题 。sigmoid 神经 元 和 感知 机 
类 似 ， 但 是 经 过 修改 后 ， 权 重 和 偏 置 的 微小 改动 只 会 引起 输出 发 生 微小 变化 ， 这 对 于 让 拥有 
sigmoid 神经 元 的 神经 网 络 正常 学 习 至 关 重 要 。 


























下 面 介 绍 sigmoid 神经 元 。 我 们 用 描绘 感知 机 的 方式 来 描绘 sigmoid 神经 元 ， 如 图 1-12 
所 示 。 








类 似 于 感知 机 ，sigmoid 神经 元 有 多 个 输入 ,x,,…， 但 是 这 些 输入 可 以 取 0 到 1 的 任意 值 ， 
而 不 限于 0 或 1， 例 如 0.638... 就 是 sigmoid 神经 元 的 一 个 有 效 输 入 。 同样 ,sigmoid 神经 元 对 每 个 
输入 有 权重 w,ww,… 和 一 个 总 的 偏 置 5”, 但 是 输出 不 是 0 或 1， 而 是 o(w:x+b) ， 其 中 的 o 被 称 
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为 sigmoid 函数 "， 定 义 如 下 : 





(3) 


0(2)= 一 一 


l+e 


合 起 来 更 直观 ， 一 个 具有 输入 x,x,,…、 权 重 w,w,,… 和 偏 置 5 的 sigmoid 神经 元 的 输出 
如 下 : 





1 
1+exp(—2) ;wx, —Db) 





(4) 


乍 一 看 ，sigmoid 神经 元 和 感知 机 有 很 大 的 差别 。 如 果 不 熟 悉 sigmoid 函数 的 代数 形式 , 会 感 
觉 它 星 涩 难 懂 。 实 际 上 , 感知 机 和 sigmoid 神经 元 之 间 有 很 多 相似 之 处 ，sigmoid 函数 的 代数 形式 
更 多 是 技术 细节 ， 而 非 理解 障碍 。 




















为 了 说 明 与 感知 机 模型 的 相似 性 ， 假设 z=w:x+b 是 一 个 很 大 的 正 数 ,那么 e= =0 而 
o(z)x1， 即 当 z=w:x+b 很 大 有 目 为 正 时 ，sigmoid 神经 元 的 输出 近似 为 1， 如 同感 知 机 。 相 反 ， 
假设 z=w.x+5 是 一 个 很 小 的 负数 , 那么 e 一 % 且 o(z)x0。 所以, 当 z=w:x+b 是 一 个 很 小 
的 负数 时 ，sigmoid 神经 元 的 行为 也 近似 于 感知 机 ; 只 有 在 z =w.:x+b 取 中 间 值 时 ，sigmoid 神经 
元 才 会 和 感知 机 模型 有 较 大 的 区 别 。 














o 的 代数 形式 又 是 怎样 的 呢 ? 如 何 理解 它 呢 ? 实际 上 ，ecz 的 精确 形式 不 重要 ， 重 要 的 是 用 
这 个 函数 绘制 的 形状 ， 如 图 1-13 所 示 。 





sigmoid 国 数 
1.0 
0.8 
0.6 
0.4 
0.2 
0.0 
-4 -3 -2 -1 0 1 2 3 4 
Zz 
图 1-13 








GD 有 时 把 ca 称 为 “logistic 函数 ”"， 并 把 这 种 新 的 神经 元 称 为 “logistic 神经 元 ”"。 这 些 术 语 被 很 多 神经 网 络 从 业者 使 
用 ， 因 此 值得 了 解 ， 但 本 书 将 继续 使 用 sigmoid 这 个 术语 。 
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阶 路 函数 的 平滑 版 本 如 图 1-14 所 示 。 
阶 跃 函数 














如 果 o 实际 上 是 阶 跃 函数 ,既然 输出 取决 于 w.x+b 是 正 还 是 负 ”， 那么 sigmoid 神经 元 相当 
于 一 个 感知 机 。 利用 实际 的 sigmoid 函数 , 可 以 得 到 一 个 平滑 的 感知 机 。 的 确 , 关键 因素 是 sigmoid 
函数 的 平滑 特性 ， 而 不 是 其 具体 形式 。o 的 平滑 意味 着 权重 和 偏 置 的 微小 变化 ( 4w, 和 4b )， 
会 产生 微小 的 输出 变化 4output 。 实 际 上 ， 利 用 微 积分 ，Aoutput 可 以 近似 地 表示 为 : 
































Ooutput Ooutput 
4output ~ > Aw,+ Ab (5) 
7 Ow ob 





其 中 求 和 是 对 所 有 权重 w 进行 的 ,而 6output/ Ow, 和 6output/65b 分 别 表示 输出 对 于 w, 和 5 的 偏 导 
数 。 不 熟悉 偏 导数 也 没有 关系 ,， 上面 的 表达 式 貌 似 很 复杂 , 实际 上 它 的 意思 非常 简单 : 4output 是 
一 个 反映 权重 和 偏 置 变化 ( 4w, 和 4p ) 的 线性 函数 。 利 用 该 线性 特性 ， 可 以 微调 权重 和 偏 置 的 
值 ， 从 而 获得 理想 的 输出 变化 。 由 于 sigmoid 神经 元 的 行为 在 本 质 上 与 感知 机 类 似 ， 因 此 有 助 于 
我 们 了 解 权 重 和 偏 置 的 变化 对 输出 值 的 影响 。 











如 有 果 对 o 来 说 确切 的 形式 不 重要 而 形状 重要 ， 那 为 何方 程 (3) 中 的 o 采用 了 特定 的 形式 呢 ? 
实际 上 ， 后 文 将 谈 到 一 些 神经 元 ， 对 于 其 他 激活 函数 f() ， 它 们 会 输出 f(w.x+5) 。 如 果 使 用 
不 同 的 激活 函数 , 最 大 的 变化 是 方程 (5) 中 用 于 偏 导数 的 特定 值 会 改变 。 事实 证 明 , 计算 这 些 偏 导 
数 时 , 使 用 o 可 以 简化 数学 运算 , 因为 在 求 导 时 指数 的 某 些 属性 可 以 派 上 用 场 。 无 论 如 何 ，c 广 
泛 用 于 神经 网 络 ， 而 且 是 本 书 最 常 使 用 的 激活 函数 。 














实际 上 ， 当 mw':x+b=0 时 ， 感 知 机 输出 0， 而 阶 跃 函数 输出 1， 所 以 严格 说 来 ， 需 要 修改 阶 路 函数 。 
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如 何 理解 sigmoid 神经 元 的 输出 呢 ? 显然 ， 感 知 机 和 sigmoid 神经 元 之 间 的 一 个 很 大 的 区 别 a 
是 sigmoid 神经 元 不 仅仅 输出 0 或 1， 它 可 以 输出 0 到 1 的 任何 实数 ， 所 以 0.173... 和 0.689... 都 是 
合理 的 输出 。 这 非常 有 用 ,例如 我 们 希望 输出 表示 神经 网 络 的 图 像 像素 的 平均 灰 度 。 但 有 时 这 反 
而 带 来 不 便 。 假 设 我 们 希望 神经 网 络 的 输出 表示 “输入 图 像 是 9” 或 “输入 图 像 不 是 9 "。 显 然 ， 
输出 0 或 1 是 最 简单 的 ， 就 像 使 用 感知 机 。 但 是 在 实践 中 , 我 们 可 以 设立 一 个 约定 来 解决 这 个 问 
题 ， 例 如 约定 不 小 于 0.5 的 输出 表示 “这 是 9”， 而 小 于 0.5 的 输出 表示 “这 不 是 9”。 本 书 在 使 用 
这 样 的 约定 时 会 指明 ， 不 会 引起 混淆 。 










































































练 习 

口 sigmoid 神经 元 模拟 感知 机 ， 第 一 部 分 
设 把 一 个 感知 机 网 络 中 的 所 有 权重 和 偏 置 乘 以 一 个 正 的 常数 c ,请 证 明 该 网 络 的 行为 不 会 
改变 。 

口 sigmoid 神经 元 模拟 感知 机 ， 第 二 部 分 
还 是 上 题 中 的 感知 机 网 络 ， 同 样 假 设 所 有 输入 被 选中 , 这 里 不 需要 实际 的 输入 值 , 仅仅 需要 
国定 这 些 输入 。 假 设 对 于 网 络 中 任何 感知 机 的 输入 Xx， 权 重 和 偏 置 都 符合 册 .X+D 关 0 ， 然 后 
用 sigmoid 神经 元 替换 网 络 中 的 所 有 感知 机 ， 并 把 权重 和 偏 置 乘 以 一 个 正 的 常数 c 。 请 证 明 
在 c 一 oo 的 极端 情况 下 ,sigmoid 神经 元 网 络 的 行为 和 感知 机 网 络 的 完全 一 致 。 当 m.x+Dp=0 
时 为 什么 会 不 同 ? 


1.3 ”神经 网 络 的 架构 


稍 后 会 介绍 一 个 神经 网 络 ， 可 以 用 它 来 很 好 地 对 手写 数字 分 类 。 在 此 之 前 ， 先 解释 神经 网 络 
中 不 同 部 分 所 用 的 术语 。 假 设 有 如 图 1-15 所 示 的 神经 网 络 。 
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前 面 提 过 ,神经 网 络 中 最 左边 的 为 输入 层 , 其 中 的 神经 元 称 为 输入 神经 元 ;最 右边 是 输出 层 ， 
包含 输出 神经 元 。 在 本 例 中 , 输出 层 只 有 一 个 神经 元 。 由 于 中 间 层 中 的 神经 元 既 不 是 输入 也 不 是 
输出 ， 因 此 称 为 隐藏 层 。“ 隐 藏 ” 听 上 去 有 些 神秘 ,我 第 一 次 听 到 这 个 词 时 ， 以 为 它 涉及 某 些 深 
奥 的 哲学 或 数学 涵义 ,实际 上 它 仅仅 意味 着 “ 既 非 输入 也 非 输 出 ”。 图 1-15 中 的 神经 网 络 仅 有 一 
个 隐藏 屋 ， 而 有 些 神经 网 络 有 多 个 隐藏 层 ， 例 如 图 1-16 中 的 四 层 神经 网 络 有 两 个 隐藏 层 。 





























图 1-16 





令 人 困惑 的 是 ， 由 于 历史 的 原因 ， 尽 管 这 种 多 层 神经 网 络 是 由 sigmoid 神经 元 而 不 是 感知 机 
构成 的 , 但 有 时 仍 被 称 为 多 层 感知 机 ( multilayer perceptron，MLP ), 但 本 书 不 会 使 用 这 种 称 法 ， 
因为 可 能 引起 混淆 ， 这 里 只 做 简单 介绍 。 








设计 神经 网 络 的 输入 层 和 输出 层 通常 比较 简单 ， 例 如 尝试 确定 一 幅 手 写 数字 图 像 上 写 的 是 
“9”。 我们 自然 会 想到 对 图 像 像 素 的 灰 度 进行 编码 ， 作 为 输入 神经 元 来 设计 神经 网 络 。 如 果 图 像 
是 一 幅 64x64 的 灰 度 图 像 ， 那 么 会 需要 4096 ( 64x64 ) 个 输入 神经 元 ， 每 个 灰 度 在 0 和 1 之 间 取 
合适 的 值 。 输 出 层 只 需要 包含 一 个 神经 元 ， 当 输出 值 小 于 0.5 时 表示 “输入 图 像 不 是 9”， 大 于 
0.5 的 值 则 表示 “输入 图 像 是 9”。 




































































相 比 于 神经 网 络 中 的 输入 层 和 输出 层 , 设计 隐藏 层 堪 比 艺术 创作 , 尤其 是 无 法 将 隐藏 层 的 设 
计 流程 总 结 为 简单 的 经 验 法 则 。 不 过 ， 神 经 网 络 人 研究 人 员 已 经 针对 隐藏 层 提出 了 许多 设计 法 则 ， 
它们 有 助 于 控制 神经 网 络 的 行为 , 使 之 符合 预期 , 例如 可 以 利用 这 些 法 则 估算 隐藏 层 数 量 和 训练 
神经 网 络 所 需 的 时 间 。 后 面 会 介绍 其 中 几 条 设计 法 则 。 
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前 面 介绍 的 神经 网 络 都 以 上 一 层 的 输出 作为 下 一 层 的 输入 ， 这 种 神经 网 络 叫 作 前 馈 神经 网 络 。 
这 意味 着 神经 网 络 中 是 没有 回路 的 ， 即 信息 总 是 向 前 传播 ， 从 不 反 向 回馈 。 如 果 存 在 回路 ， 最 终 
会 出 现 这 样 的 状况 : sigmoid 函数 的 输入 依赖 输出 。 这 难以 理解 ， 所 以 不 允许 出 现 回路 。 









































然而 , 一 些 人 工 神经 网 络 模 型 可 以 包含 反馈 回路 , 这 类 模型 被 称 为 循环 神经 网 络 。 其 设计 思 
想 是 部 分 神经 元 在 休眠 前 会 保持 激活 状态 , 这 种 激活 状态 可 以 刺激 其 他 神经 元 , 将 其 激活 并 保持 
一 段 时 间 ， 这 样 会 导致 更 多 神经 元 被 激活 。 随 着 时 间 的 推移 ， 就 会 得 到 一 个 级 联 的 神经 元 激活 系 
统 。 因 为 一 个 神经 元 的 输出 在 一 段 时 间 后 而 不 是 即刻 影响 其 输入 , 所 以 在 该 模型 中 回路 不 会 引起 








循环 神经 网 络 不 及 前 饥 神经 网 络 的 影响 力 大 ,部 分 原因 是 循环 神经 网 络 的 学 习 算法 ( 至 少 到 
目前 为 止 ) 不 够 强大 ,但 是 循环 神经 网 络 仍然 值得 研究 , 因为 其 运行 原理 更 接近 人 脑 的 工作 原理 。 
此 外 ,循环 神 经 网 络 能 够 解决 一 些 重要 的 问题 ， 而 这 些 问题 仅 依靠 前 饥 神经 网 络 难以 解决 。 篇 由 
所 限 ， 本 书 将 着 重 介绍 应 用 更 广泛 的 前 僻 神 经 网 络 。 

1.4 一 个 简单 的 神经 网 络 : 分 类 手写 数字 


定义 好 神经 网 络 后 ,下 面 回 到 手写 数字 识别 问题 ,可 以 把 手写 数字 识别 问题 分 成 两 个 小 问题 。 
首先 ， 我们 希望 把 包含 许多 数字 的 图 像 分 成 一 系列 单独 的 图 像 ， 每 幅 图 像 包 含 单个 数字 。 例 如 ， 
把 如 图 1-17 所 示 的 图 像 分 成 如 图 1-18 所 示 的 6 幅 图 像 。 


SOH/42 


图 1-17 


50174 a 


图 1-18 


这 个 分 割 问题 对 于 人 类 来 说 很 简单 ， 但 对 于 计算 机 程序 而 言 是 个 挑战 。 图 像 被 分 割 后 ， 程 序 
需要 把 各 个 数字 分 类 ， 例 如 我 们 希望 程序 能 识别 图 1-18 中 的 第 一 个 数字 ， 如 图 1-19 所 示 。 


> 


图 1-19 
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下 面 通过 编程 解决 第 2 个 问题 一 一 把 单独 的 数字 分 类 , 因为 相对 于 找到 分 类 单独 数字 的 有 效 
方法 ,分割 问题 要 简单 得 多 。 分割 图 像 的 方法 有 很 多 , 一 种 方法 是 尝试 不 同 的 分 割 方 式 ， 用 数字 
分 类 器 给 每 一 个 切 分 片段 打分 。 如 果 数 字 分 类 器 对 每 一 个 片段 的 置信 度 都 比较 高 , 那么 这 种 分 割 
方式 会 得 到 较 高 的 分 数 ; 如 果 数 字 分 类 器 在 一 个 或 多 个 片段 上 出 现 问题 , 那么 这 种 分 割 方式 就 会 
得 到 较 低 的 分 数 。 其 思路 是 ,如果 分 类 顺 出 现 问题 ,那么 很 可 能 是 网 像 分 割 出 错 导致 的 。 这 种 思 
想 及 其 变 体能 够 较 好 地 解决 分 割 问 题 。 因此, 与 其 费心 于 分 割 问题 , 不 如 专注 于 设计 神经 网 络 来 
解决 更 有 趣 也 更 难 的 问题 一 一 识别 手写 数字 。 












































我 们 将 使 用 一 个 三 层 神经 网 络 来 识别 单个 数字 ， 如 图 1-20 所 示 。 


隐藏 层 
(n= 15 个 神经 元 ) 


输入 层 
(784 个 神经 元 ) 





输入 层 包含 对 输入 像素 的 值 进 行 编码 的 神经 元 。 稍 后 会 介绍 , 神经 网 络 所 用 的 训练 数据 由 很 
多 扫描 得 到 的 手写 数字 图 像 组 成 (像素 是 28x28 ), 因此 输入 层 共 包含 784( 28x28 ) 个 神经 元 。 
简单 起 见 ， 图 1-20 忽略 了 大 部 分 输入 神经 元 。 输 入 像素 表示 为 灰 度 ， 值 为 0.0 表示 白色 ， 值 为 
1.0 表示 黑色 ， 中 间 数 值 表示 灰 度 。 








神经 网 络 的 第 2 层 是 隐藏 层 ， 其 中 了 表示 神经 元 的 数量 ,可 以 取 不 同 的 值 。 本 示例 的 隐藏 
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层 仅 包含 15 


个 神经 元 。 

















输出 层 包含 10 个 神经 元 。 如 果 第 0 个 神经 元 被 激活 ， 即 输出 约 为 1, 则 表明 神经 网 络 认为 数 


字 是 一 个 “0”; 如 果 第 1 个 神经 元 被 激活 ， 则 表明 神经 网 络 认为 数字 是 一 个 “1!”， 以 此 类 推 。 
确切 地 说 ， 我 们 把 输出 神经 元 的 输出 以 0~ 9 编号 ， 并 计算 哪个 神经 元 的 激活 值 最 大 。 如 果 编 号 























为 6 的 神经 元 被 激活 ， 那 么 说 明神 经 网 络 猜测 输入 的 数字 为 “6”， 其 他 神经 元 的 行为 与 之 类 似 。 

















你 可 能 会 好 奇 为 什么 这 里 用 了 10 个 输出 神经 元 ， 毕 竟 我 们 的 目标 是 让 神经 网 络 能 判断 0 ~9 
中 的 哪个 数字 与 输入 图 片 匹配 。 一 个 看 似 更 自然 的 方法 是 使 用 4 个 输出 神经 元 , 把 每 一 个 数字 当 
作 一 个 二 进 制 值 ， 看 其 输出 更 接近 0 还 是 1。4 个 神经 元 足以 编码 这 个 问题 了 ， 因 为 对 于 输入 数 
字 而 言 2 =16 ( 大 于 10 )。 那 么 为 什么 要 用 10 个 神经 元 呢 ? 这 样 做 不 会 效率 更 低 吗 ? 这 个 决策 









































是 基于 经 验 的 : 我 们 可 以 试验 两 种 神经 网 络 设 计 ， 结 果 证 明 对 于 这 个 特定 的 问题 ， 含 有 10 个 输 
出 神经 元 的 神经 网 络 比 4 个 的 识别 效果 更 好 。 为 什么 含有 10 个 输出 神经 元 的 神经 网 络 更 有 效 呢 ? 























是 否 有 启发 式 方法 能 提前 告知 我 们 用 10 个 输出 编码 比 用 4 个 输出 编码 更 好 呢 ? 


























为 了 理解 其 中 的 原因 ， 需 要 从 根本 上 理解 神经 网 络 的 工作 原理 。 首 先 考虑 10 个 输出 神经 元 
的 情况 。 第 0 个 输出 神经 元 通过 分 析 来 自 隐 藏 层 的 信息 来 判断 一 个 数字 是 否 为 0。 隐藏 层 的 神经 
元 有 什么 作用 呢 ? 假设 隐藏 层 的 第 1 个 神经 元 只 负责 检测 如 图 1-21 的 图 像 是 否 存在 。 
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图 1-21 


为 了 完成 任务 , 该 神经 元 给 和 此 图 像 重 县 部 分 的 像素 赋予 大 的 权重 ,而 给 其 他 部 分 赋予 小 的 


权重 。 同 理 ， 
否 存在 。 




















可 以 假设 隐藏 层 的 第 2、 第 3、 第 4 个 神经 元 分 别 负 责 检测 如 图 1-22 所 示 的 图 像 是 





bs - 


图 1-22 
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你 也 许 猜 到 了 , 这 4 幅 图 像 组合 在 一 起 就 构成 了 前 面 给 出 的 一 行 数字 图 像 中 的 0， 如 图 1-23 
所 示 。 


图 1-23 

















如 果 这 4 个 隐藏 神经 元 都 被 激活 ， 那 么 可 以 推断 出 这 个 数字 是 0。 当 然 ， 这 不 是 推断 出 0 的 
方式 ， 有 很 多 方法 可 以 做 到 ( 例如 对 这 些 图 像 进 行 平移 ， 或 者 稍微 变形 )。 




















假设 神经 网 络 以 上 述 方式 运行 ,那么 有 一 个 较为 可 信 的 理由 可 以 解释 为 什么 用 10 个 输出 而 
非 4 个 : 如 果 有 4 个 输出 ,那么 第 1 个 输出 神经 元 将 设法 判断 数字 的 最 高 有 效 位 是 什么 。 数 字 的 
最 高 有 效 位 与 数字 形状 不 容易 联系 到 一 起 ,很 难 想 象 一 个 数字 的 形状 要 素 与 其 最 高 有 效 位 有 什么 
紧密 联系 。 























前 面 所 讲 的 只 是 一 个 启发 式 方法 。 不 过 , 这 个 三 层 神经 网 络 并 非 必须 按照 这 种 方式 运行 ， 即 
隐藏 层 用 于 检测 数字 的 组 成 形状 。 可 能 先进 的 学 习 算法 能 找到 一 些 合适 的 权重 , 使 得 仅 用 4 个 输 
出 神经 元 即 可 。 无 论 如 何 , 本 节 介 绍 的 启发 式 方法 通常 很 有 效 , 无 须 大 量 时 间 便 能 设计 出 一 个 不 
错 的 神经 网 络 架构 。 
































练 习 
在 上 述 的 三 层 神经 网 络 中 再 加 一 层 就 能 实现 按 位 表示 数字 了 。 额 外 的 这 一 层 把 前 一 层 的 输 
出 转换 为 一 个 二 进 制 表 示 ， 如 图 1-24 所 示 。 请 为 新 的 输出 层 寻 找 合适 的 权重 和 偏 置 。 假 定 原 
先 的 三 层 神经 网 络 在 第 3 层 ( 原先 的 输出 层 ) 得 到 正确 输出 的 激活 值 至 少 为 0.99, 得 到 错误 输 
出 的 激活 值 至 多 为 0.01。 
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旧 输 出 层 





输入 层 
(784 个 神经 元 ) 











1.5 利用 梯度 下 降 算 法 进行 学 习 


前 面 设 计 的 神经 网 络 如 何 学 习 识别 数字 呢 ? 首先 需要 一 个 供 学 习 使 用 的 数据 集 一 一 训练 数 
据 集 ， 简 称 训练 集 。 我 们 将 使 用 MNIST 数据 集 ， 它 包含 数 以 万 计 的 手写 数字 扫描 图 像 及 其 正确 
的 分 类 信息 。 该 数据 集 基 于 由 NIST (美国 国家 标准 与 搁 术 研究 院 ) 收集 的 两 个 数据 集 改进 后 的 
子 集 。 图 1-25 所 示 的 图 像 就 取 自 MNIST 数据 集 。 


如 图 1-25 所 示 ， 这 些 数 字 其 实 和 本 音 开 头 提 到 的 一 样 。 当 然 ， 在 测试 神经 网 络 时 ， 我 们 将 
要 求 它 识别 训练 集 以 外 的 图 像 。 











MNIST 数据 分 为 两 部 分 。 第 一 部 分 包含 60 000 幅 用 作 训 练 数据 的 图 像 , 这 些 图 像 扫描 自 250 
人 的 手写 样本 , 其 中 一 半 人 是 美国 人 口 普 查 局 的 员工 , 男 一 半 人 是 高 中 生 。 这 些 图 像 是 28x28 大 
小 的 灰 度 图 。 第 二 部 分 是 10 000 幅 用 作 测试 数据 的 图 像 ， 也 是 28x28 大 小 的 灰 度 图 。 我 们 将 用 
这 些 测试 数据 来 评估 神经 网 络 识别 数字 的 水 平 。 为 了 保证 测试 结果 , 测试 数据 取 自 跟 原始 训练 数 
据 不 同 的 另外 250 人 (仍然 是 美国 人 口 普查 局 员工 和 高 中 生 ) 所 写 的 数字 ,这 样 系统 会 尝试 识别 
训练 时 未 见 过 的 手写 数字 。 
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我 们 用 符号 x 表示 训练 输入 。 方便 起 见 ， 把 训练 输入 x 看 作 28x28=784 维 的 向 量 。 向 量 中 的 
每 一 项 代表 图 像 中 单个 像素 的 灰 度 值 。 我们 用 了 = y(x) 表示 对 应 的 目标 输出 , 其 中 y 是 一 个 10 维 向 
量 。 例如 对 于 一 个 写成 “6” 的 训练 图 像 x, 神经 网 络 的 目标 输出 就 是 y(x) = (0,0,0,0,0,0,1,0,0,0)" 。 
注意 , I 是 转 置 操 作 ， 它 把 行 向 量 转 换 成 列 向 量 。 






























































我 们 希望 有 算法 能 找到 合适 的 权重 和 偏 置 ， 使 得 神经 网 络 的 输出 y(x) 能 够 拟 合 所 有 训练 输 
和 人 人 x。 为 了 量化 实现 过 程 ， 需 要 定义 一 个 代价 函数 ”: 








i = 元 2 访 罗 = (0) 



































其 中 w 表示 神经 网 络 中 所 有 权重 的 集合 , 5 是 所 有 偏 置 , n 是 训练 输入 的 数量 ,a 表示 输入 为 x 时 
输出 的 向 量 ， 求 和 则 是 对 所 有 训练 输入 x 进行 的 。 当 然 ， 输出 a 取决 于 x 、w 和 4b, 但 是 为 了 保 
持 符号 简洁 ， 没 有 明确 指出 这 种 依赖 关系 。|lv|| 是 向 量 » 的 长 度 函 数 。 我 们 把 C 称 为 二 次 代价 函 
数 ， 也 称 均 方 误差 ( MSE )。 观 察 二 次 代价 函数 的 形式 ， 可知 C(w,5) 非 负 ， 这 是 因为 求 和 方程 中 
的 每 一 项 都 是 非 负 的 。 此 外 ， 确 切 地 说 ， 当 对 于 所 有 训练 输入 x ，y(x) 近似 等 于 输出 a 时 ， 代 
函数 C(w,2b) 的 值 相当 小 ， 即 C0w,2) =0 。 因 此 ， 如 果 学 习 算 法 能 找到 合适 的 权重 和 偏 置 ， 使 
得 C(w,b)~0 ， 它 就 能 很 好 地 工作 ; 相反 ， 当 CGOwD) 很 大 时 就 不 怎么 好 了 ,， 那 意味 着 对 于 大 量 
的 输入 ，y(x) 与 输出 a 相差 很 大 。 因 此 ， 训 练 算法 的 目的 是 最 小 化 代价 函数 C(w,b) 。 换 言 之 ， 
我 们 想 找 到 能 让 代价 尽 可 能 小 的 权重 和 偏 置 ， 这 可 以 通过 梯度 下 降 算法 来 实现 。 
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为 什么 要 介绍 二 次 代价 函数 呢 ? 毕竟 ,我 们 起 初 感 兴趣 的 不 是 能 被 正确 分 类 的 图 像 的 数量 吗 ? 
为 什么 不 尝试 直接 最 大 化 这 个 数量 , 而 去 最 小 化 二 次 代价 这 个 间接 指标 呢 ? 这 是 因为 在 神经 网 络 
中 , 被 正确 分 类 的 图 像 数 量 所 涉 权 重 和 偏 置 的 函数 并 不 是 平滑 的 函数 。 大 多 数 情况 下 ,权重 和 偏 
置 的 微小 变动 完全 不 会 影响 被 正确 分 类 的 图 像 的 数量 。 这 会 导致 很 难 通过 改变 权重 和 偏 置 来 提升 
表现 ， 而 用 平滑 代价 函数 (例如 二 次 代价 函数 ) 能 更 好 地 通过 微调 权重 和 偏 置 来 改善 效果 。 这 就 
是 首先 研究 最 小 化 二 次 代价 的 原因 ， 只 有 这 样 ， 后 面 才能 测试 分 类 准确 度 。 



















































































了 解 了 使 用 平滑 代价 函数 的 缘由 ,你 可 能 还 想 知道 方程 (6) 选 择 二 次 函数 是 否 有 什么 特殊 原因 。 
选择 不 同 的 代价 函数 , 得 到 的 最 小 化 的 权重 和 偏 置 是 否 截 然 不 同 呢 ? 这 种 疑问 不 无 道理 , 后 面 会 
再 讨论 这 个 代价 函数 , 并 做 一 些 修改 。 尽管 如 此 , 方程 (0) 中 的 二 次 代价 函数 有 助 于 我 们 更 好 地 理 
解 神经 网 络 中 学 习 算 法 的 基础 ， 所 以 接 下 来 还 会 使 用 它 。 


















































GD 有 时 称 作 “损失 函数 ”或 “目标 函数 "。 本 书 使 用 “代价 函数 ”这 个 称 法 ， 其 他 称 法 常见 于 研究 论文 和 一 些 关 于 
神经 网 络 的 讨论 。 
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重申 一 下 ， 训 练 神经 网 络 旨 在 找到 能 最 小 化 二 次 代价 函数 C0w,b) 的 权重 和 偏 置 。 这 是 一 个 el 
适 定 问题 ， 但 它 的 许多 细节 会 分 散 我 们 的 注意 力 ， 例 如 对 权重 w 和 偏 置 b 的 解释 、 史 涩 难 懂 的 
sigmoid 函数 、 神 经 网 络 架 构 的 选择 、MNIST 数据 集 ， 等 等 。 事 实证 明 可 以 忽略 其 中 大 部 分 ， 而 
专注 于 最 小 化 。 暂且 忽略 代价 函数 的 具体 形式 、 神 经 网 络 的 连接 ,等 等 ， 只 考虑 最 小 化 一 个 给 定 
的 多 元 函数 。 我 们 会 使 用 一 种 名 为 梯度 下 降 的 技术 来 解决 最 小 化 问题 , 然后 尝试 将 神经 网 络 中 的 
特定 函数 最 小 化 。 




















假设 要 最 小 化 某 个 函数 Co) , 它 可 以 是 任意 的 多 元 实 值 函数 , 其 中 v=v,v,,…。 注意 , 用 v 
代替 ww 和 2 是 为 了 强调 这 可 以 是 任意 函数 , 而 不 局 限于 神经 网 络 范畴 。 为 了 最 小 化 CO) , 想象 C 
是 一 个 只 有 两 个 变量 v 和 vw 的 函数 ， 如 图 1-26 所 示 。 

















我 们 想 找到 C 的 全 局 最 小 值 。 当 然 ， 对 于 图 1-26 中 的 函数 ， 一 眼 就 能 找到 最 小 值 ， 但 这 只 意 
味 着 所 展示 的 函数 过 于 简单 了 ,通常 函数 C 会 是 一 个 复杂 的 多 元 函数 , 无 法 单 赁 看 图 找到 最 小 值 。 




















解决 该 问题 的 一 种 方法 是 用 微 积分 来 解析 最 小 值 。 可 以 通过 计算 导数 来 寻找 C 的 极 值 点 。 
简单 的 话 ，C 只 有 一 个 或 几 个 变量 。 变 量 过 多 的 话 就 很 复杂 ， 而 且 神 经 网 络 中 往往 需要 大 量变 
量 ， 超 大 规模 神经 网 络 的 代价 函数 甚至 依赖 数 亿 权 重 和 偏 置 ， 极 其 复杂 ， 无 法 通过 微 积分 来 计 
算 最 小 值 。 


直接 用 微 积分 了 , 不 过 有 个 比喻 可 以 启发 我 们 找到 有 效 的 算法 。 首 先 把 函数 想象 成 一 个 
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Qa 在 声明 可 以 假设 函数 C 仅 有 两 个 变量 后 ， 前 文 两 次 提 到 如 果 函 数 变量 多 于 两 个 要 怎么 办 。 我 认为 把 C 想象 成 二 
元 函数 有 助 于 理解 ， 尽管 有 时 会 遇 到 障碍 ,但 这 正 是 前 面试 图 解决 的 问题 。 数 学 思考 往往 涉及 想象 ， 这 是 因为 画 
面 更 直观 ， 了 解 何 时 适用 很 重要 。 
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山谷 (参见 图 1-26 就 不 难 理解 )， 设 想 有 一 个 小 球 从 山谷 的 斜坡 滚 落 。 日 党 经 验 告诉 我 们 ， 这 个 
小 球 最 终 会 滚 落 到 谷底 , 也 许可 以 利用 这 一 想法 来 找到 函数 的 最 小 值 。 可 以 为 假想 的 小 球 随机 选 
择 一 个 起 始 位 置 ， 然 后 模拟 小 球 滚 落 到 谷底 的 运动 。 可 以 通过 计算 C 的 导数 (或 者 二 阶 导数 ) 来 
简单 地 模拟 ， 这 些 导 数 可 以 描述 山谷 的 局 部 “形状 "， 以 此 获知 小 球 的 滚动 情况 。 

















你 可 能 以 为 下 面 会 引入 牛顿 运动 定律 ,考虑 摩擦 力 、 重 力 等 影响 。 实际 上 , 我 们 不 打算 真 的 
推导 小 球 的 滚 落 一 一 我 们 是 在 设计 一 个 最 小 化 C 的 算法 , 而 不 是 根据 物理 定律 做 精确 的 模拟 。 观 
察 小 球 是 为 了 激发 想象 ， 而 不 是 束缚 思维 。 因 此 ,与 其 陷 人 物理 学 的 烦琐 细节 ， 不 如 问 自 己 : 如 
果 我 们 能 够 自己 设置 物理 定律 , 支配 小 球 的 滚动 方式 , 那么 我 们 会 运用 什么 运动 规律 来 让 小 球 总 
能 深 落 到 谷底 呢 ? 



























































为 了 更 精确 地 描述 这 个 问题 ,思考 一 下 , 当 在 站 方向 和 疡 方向 分 别 将 小 球 移动 一 个 很 小 的 量 ， 
即 如 各 2 时， 小 球 会 如 何 运动 ? 运用 微 积分 可 知 ，C 将 出 现 如 下 变化 : 











4C = 一 4) 十 (7) 
Ov, Ov, 
我 们 要 寻找 一 种 选择 4v 和 4v, 的 方法 , 使 得 4C 为 负 , 即 选择 它们 是 为 了 让 小 球 滚 落 到 谷底 。 
对 于 如 何 选择 ， 需 要 定义 4v 为 v 变化 的 向 量 ，4" = (4w,4)7 ， 其 中 工 是 转 置 符号 ， 用 于 将 行 
向 量 转换 成 列 向 量 。 定 义 C 的 梯度 为 偏 导 数 的 向 量 ， (ee) 。 用 VC 表示 梯度 向 量 : 


om 


工 
vc-| 关 所] (8) 
Ov Ov, 














我 们 会 用 4v 和 梯度 VC 重 写 4C 的 变化 。 在 这 之 前 ， 先 澄清 一 下 关于 梯度 的 一 些 令 人 困惑 
的 地 方 。 初 次 见 到 VC 这 个 符号 时 ， 人 们 会 想 知道 如 何 理解 V 符号 。V 究竟 是 什么 意思 ? 实际 
上 , 可 以 把 VC 看 作 简单 的 数学 符号 (前 面 定义 的 向 量 ), 这 样 就 不 必 写 两 个 符号 了 。 如 此 看 来 ， 
V 只 是 一 个 符号 , 它 醒目 地 告诉 你 VC 是 一 个 梯度 向 量 。 数学 上 对 于 V 还 有 许多 专业 的 解释 ( 比 
如 作为 微分 运算 符 ), 但 这 里 不 需要 了 解 。 





基于 这 些 定义 ， 可 以 把 表达 式 (7) 重 写 为 : 
4C=<VC. 必 (9) 


该 表达 式 解 释 了 将 VC 称 作 梯 度 向 量 的 原因 : VC 把 v 的 变化 与 C 的 变化 相关 联 , 正如 我 们 
所 期 望 的 用 “梯度 ”来 完成 此 事 。 但 是 这 个 方程 真正 的 价值 在 于 它 显 示 了 如 何 选取 4v 以 使 4C 为 
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负 。 假 设 我 们 设 定 : 
Av=—nVC (10) 


其 中 的 7 是 一 个 很 小 的 正 数 ( 称 为 学 习 率 )。 由 方程 (9) 可 知 ，4C = -nVC :VC = -nllVCl] 。 由 于 
lvC 几 =0， 因 此 A4C <0， 即 如 果 按 照 方程 (10) 的 规则 去 改变 » ， 那 么 C 会 一 直 减 小 ， 不 会 增加 
一 一 当然 要 在 方程 (9) 的 近似 极限 下 一 一 这 正 是 我 们 想 要 的 特性 ! 因此 方程 (10) 用 于 定义 小 球 在 梯度 
下 降 算 法 下 的 “运动 定律 "。 也 就 是 说 ， 用 方程 (10) 计 算 hv 的 值 ， 然 后 根据 那个 量 来 移动 小 球 。 


vvV=v-WYC (11) 






































然后 再 次 用 该 更 新 规则 进行 下 一 次 移动 。 如 果 反 复 这 样 做 ，C 将 不 断 减 小 , 直到 达到 全 局 最 
小 值 。 

总 结 一 下 , 梯度 下 降 算 法 的 工作 方式 就 是 重复 计算 梯度 VC ， 然 后 沿 相 反 的 方向 移动 ， 即 沿 
着 山谷 “ 深 落 ”， 情 形 如 图 1-27 所 示 。 














图 1-27 





注意 ,遵循 该 规则 的 梯度 下 降 并 非 模拟 实际 的 物理 运动 。 在 现实 中 , 小 球 的 动量 使 得 它 可 能 
滚动 ,甚至 (短暂 地 ) 往 山 上 滚 。 因 为 存在 摩擦 力 ， 所 以 小 球 最 终 会 滚 到 谷底 。 相 比 之 下 ， 和 采用 
如 规则 只 是 阅 :“ 现 在 往 下 。” 它 仍然 是 寻找 最 小 值 的 有 效 规则 ! 























为 了 使 梯度 下 降 算 法 行 之 有 效 , 需 要 选择 足够 小 的 学 习 率 7 ,以 使 方程 (9) 能 得 到 很 好 的 近似 ， 
否则 4C > 0， 这 显然 不 好 。 此 外 ，7 不 宜 太 小 ， 因 为 这 会 使 4v 极 小 ， 梯 度 下 降 算 法 的 效率 会 很 
低 。 在 真正 的 实现 中 , 7 通常 是 变化 的 , 以 使 方程 (9) 保 持 很 好 的 近似 度 , 而 算法 效率 又 不 会 太 低 ， 
稍 后 详 述 。 
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前 面 解释 了 具有 两 个 变量 的 函数 C 的 梯度 下 降 。 实 际 上 上， 即使 C 是 一 个 具有 更 多 变量 的 函 
数 , 也 能 很 好 地 工作 。 假设 C 是 一 个 有 m 个 变量 (vw ,…,v) 的 多 元 函数 , 那么 对 于 C 中 自 变 量 的 
变化 4v = (4v,,…,A4v,,)  ，AC 将 会 变 为 : 



































4C=<VC.4d (12) 
其 中 梯度 VC 是 向 量 。 
ac ec 
ves [OE] (13) 
Ov Ov, 
正如 两 个 变量 的 情况 ， 可 以 设 定 : 
4 = 一 VC (14) 











而 且 保 证 4C 的 近似 表达 式 (12) 为 负 。 这 有 助 于 通过 梯度 达到 最 小 值 , 即使 C 是 任意 的 多 元 函数 ， 
也 能 重复 运用 更 新 规则 











vv = 一 VC (15) 
































可 以 把 这 个 更 新 规则 看 作 定义 梯度 下 降 算 法 。 这 相当 于 一 种 通过 重复 改变 v 来 寻找 函数 C 
的 最 小 值 的 方法 。 该 规则 并 不 总 是 有 效 的 , 有 几 处 可 能 出 错 , 使 得 无 法 通过 梯度 下 降 求 得 函 

的 全 局 最 小 值 ， 后 面 会 详 述 。 在 实践 中 ,梯度 下 降 算法 通常 表现 良好 。 在 神经 网 络 中 ,， 它 是 一 种 
求 代价 函数 最 小 值 的 有 效 方式 ， 能 帮助 神经 网 络 学 习 。 


实际 上 ,有 人 其 至 认为 梯度 下 降 算法 是 求 最 小 值 的 最 佳 策 略 。 假 设 我 们 正 努 力 通过 改变 Av 来 
让 C 尽 可 能 地 减 小 ， 这 相当 于 最 小 化 4C = VC. 如 。 限 制 步 长 为 某 个 小 的 固定 值 ，<> 0 ， 即 
4v|=e 。 当 步 长 固定 时 ， 要 找到 使 得 C 减 小 最 多 的 下 降 方向 。 可 以 证 明 ， 使 得 VC.4 取得 最 
小 值 的 4 为 4=-7VC ,， 这 里 7=e/YCl 是 由 步 长 限制 | 4v]|=c 所 决定 的 。 因 此 ， 有 人 将 梯 
度 下 降 算法 视 为 在 C 下 降 最 快 的 方向 上 做 小 步 变更 的 方法 。 







































































练 习 
请 证 明 以 上 论断 。 提 示 : 可 以 利用 柯 西 - 施 瓦 英 不 等 式 。 
前 面 解释 了 C 是 二 元 函数 或 多 元 函数 的 情况 。 如 果 C 是 一 元 函数 ， 会 如 何 呢 ? 请 通过 几 
何 解释 相应 的 梯度 下 降 算 法 。 
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人 们 研究 出 了 梯度 下 降 算法 的 很 多 变 体 , 其 中 一 些 能 够 更 真实 地 模拟 小 球 的 物理 运动 。 这些 en 
变 体 有 很 多 优点 , 但 有 一 个 主要 的 缺点 ; 最 终 必须 计算 C 的 二 阶 偏 导 , 其 代价 非常 大 。 为 了 说 明 
为 什么 这 种 做 法 代价 大 ， 假 设 我 们 想 求 所 有 二 阶 偏 导 0:C /6v,6v, ， 如 果 有 上 百 万 的 变量 v,， 屠 
么 必须 计算 万 亿 级 ( 百 万 次 的 平方 ) 的 二 阶 偏 导 "! 这 会 产生 巨大 的 计算 代价 。 不 过 也 有 -一些 避 
免 这 类 问题 的 技巧 ,寻找 梯度 下 降 算法 的 替代 方法 是 很 活跃 的 研究 领域 , 但 本 书 主要 用 梯度 下 降 
算法 ( 及 其 变 体 ) 来 让 神经 网 络 学 习 。 


如 何在 神经 网 络 中 利用 梯度 下 降 算法 进行 学 习 呢 ? 其 思想 是 利用 梯度 下 降 算 法 寻找 权重 W 
和 偏 置 p ， 以 使 方程 (6) 的 代价 最 小 。 为 了 说 明 工 作 原理 ， 我 们 将 用 权重 和 偏 置 代替 变量 。 也 
就 是 说 ， 现 在 “位 置 ” 变 量 由 w 和 4b 组 成 ,梯度 向 量 VC 则 由 相应 的 0C/6w, 和 6C/6p 组成， 
因此 梯度 下 降 的 更 新 规则 为 : 



























































oC 

Wi > We = We (16) 
大 
oC 

已 一 六 Se (17) 





重复 应 用 此 更 新 规则 就 能 “让 小 球 滚 下山 "， 并 且 有 望 找到 代价 函数 的 最 小 值 。 换 言 之 ， 这 
条 规则 能 让 神经 网 络 学 习 。 

应 用 梯度 下 降 规则 有 很 多 挑战 ， 后 文 将 深入 讨论 。 现 在 有 一 个 问题 需要 解决 。 为 了 搞 清楚 问 
题 ， 首 先 回顾 方程 (6) 中 的 二 次 代价 函数 。 注 意 ， 该 代价 函数 可 写成 C= 1 导 ,C, ， 即 它 是 每 个 训 
练 样本 的 单独 代价 C, => 四 = 的 平均 值 。 在 实践 中 ,为 了 计算 梯度 VC ， 需 要 为 每 个 训练 输入 
x 单独 计算 梯度 值 VC, ， 然 后 求 平均 值 ，YC = 上 兄 ,VC, 。 然 而 当 训练 输入 的 数量 过 多 时 会 花费 
很 长 时 间 ， 进 而 导致 学 习 变 慢 。 












































有 种 名 为 随机 梯度 下 降 的 算法 能 够 加 速 学 习 ， 其 思想 是 通过 随机 选取 少量 训练 输入 样本 来 
计算 VC, ,进而 估算 梯度 VC 。 通过 计算 少量 样本 的 平均 值 , 可 以 快速 且 较 为 准确 地 估算 出 实际 
的 梯度 VC ， 这 有 助 于 加 速 梯度 下 降 ， 进 而 加 速 学 习 过 程 。 

确切 地 说 , 随机 梯度 下 降 通 过 随机 选取 少量 的 m 个 训练 输入 来 工作 。 我 们 将 这 些 随 机 的 训练 
输入 标记 为 已 ,Xp 和 ， 并 称 之 为 一 个 小 批量 。 假 设 样本 数量 m 足够 大 ，VC; 的 平均 值 会 大 
致 等 同 于 整个 VCy 的 平均 值 : 

















Qa 实际 上 ， 更 接近 万 亿 次 的 一 半 ， 这 是 因为 0*C /Ov,6v = OC /OvOv; 。 
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VC > VC， E 











VC (18) 
m n 
其 中 第 2 处 求 和 是 对 整个 训练 数据 集 进行 的 。 交 换 两 边 可 得 : 
VC 二 > VC， (19) 
m J 

















这 证 实 了 可 以 通过 仅 计算 随机 选取 的 小 批量 数据 的 梯度 来 估算 整体 梯度 。 














为 了 将 随机 梯度 下 降 和 神经 网 络 的 学 习 更 好 地 联系 起 来 ， 假 设 w% 和 bb 分 别 表示 神经 网 络 中 
的 权重 和 偏 置 。 随 机 梯度 下 降 通 过 随机 选取 并 训练 输入 的 小 批量 数据 来 工作 。 






































oC 
1 ，，_ 7 区 
Wi > We = Wh > Gr (20) 
OCy 
b>b'=%b, 2 WB (21) 
其 中 两 处 求 和 是 对 当前 小 批量 数据 中 的 所 有 训练 样本 XY, 进行 的 。 然 后 随机 选取 男 一 小 批量 数据 


去 训练 。 用 完 所 有 训练 输入 就 完成 了 一 轮 ( epoch ) 训练 ， 接 着 可 以 开始 新 一 轮训 练 。 


另外 , 值得 一 提 的 是 , 对 于 改变 代价 函数 大 小 的 参数 以 及 用 于 计算 权重 和 偏 置 的 小 批量 数据 
的 更 新 规则 ,会 有 不 同 的 约定 。 在 方程 (6) 中 ,通过 因子 1/n 来 改变 整个 代价 函数 的 大 小 。 有 时 可 
以 忽略 1/n ， 直 接 取 单个 训练 样本 的 代价 总 和 ， 而 不 是 取 平 均值 。 这 在 不 清楚 训练 数据 量 的 情况 
下 特别 有 效 ， 例 如 训练 数据 大 多 是 实时 产生 的 。 同 样 ， 小 批量 数据 的 更 新 规则 (20) 和 (21) 有 时 会 
舍弃 前 面 的 1/m 。 这 在 概念 上 略 有 区 别 ， 因 为 它 等 同 于 改变 了 学 习 率 7 的 大 小 。 在 对 不 同 工 作 进 
行 详细 对 比 时 需要 留意 。 


可 以 把 随机 梯度 下 降 想象 成 一 次 民意 调查 : 在 一 个 小 批量 数据 集 上 采样 比 对 完整 的 数据 集 进 
行 梯度 下 降 分 析 要 容易 得 多 , 正如 进行 一 次 民意 调查 之 于 举行 一 次 全 民选 举 。 例如 有 一 个 规模 为 
n= 60 000 的 训练 集 ， 比 如 MNIST 数据 集 ， 并 选取 小 批量 数据 大 小 m =10 ， 这 意味 着 估算 梯度 
的 过 程 加 速 了 6000 倍 ! 当然 ， 这 个 估算 并 不 是 完美 的 ， 存 在 统计 涨 落 ， 但 是 没 必 要 完美 。 我 们 
的 目标 是 通过 在 某 个 方向 上 移动 来 减少 C , 这 意味 着 不 需要 精确 计算 梯度 。 在 实践 中 , 随机 梯度 
下 降 是 神经 网 络 学 习 中 广泛 使 用 、 特 别 有 效 的 技术 ， 它 也 是 本 书 中 大 多 数学 习 技术 的 基础 。 
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练 习 
梯度 下 降 算 法 的 一 个 极端 版 本 是 把 小 批量 数据 的 大 小 设 为 1， 即 假设 有 一 个 训练 输入 x， 
按照 规则 Wi 一 Ww'=w 一 10C, /0w, 和 b 一 b'=b, 一 0C, 165 更 新 权重 和 偏 置 ; 然后 选取 另 一 
个 训练 输入 ， 再 次 更 新 权重 和 偏 置 ， 如 此 重复 ， 这 个 过 程 称 为 在 线 学 习 或 者 增 量 学 习 。 进 行 在 
线 学 习 的 神经 网 络 一 次 只 学 习 一 个 训练 输入 ( 类似 于 人 类 )。 对比 一 个 小 批量 输入 ( 例如 含 20 
个 输入 ) 的 随机 梯度 下 降 ， 尝 试 找 出 在 线 学 习 的 优点 和 缺点 。 


下 面 讨论 梯度 下 降 中 可 能 令 人 困惑 的 问题 。 在 神经 网 络 中 , 代价 函数 C 是 一 个 关于 所 有 权重 
和 偏 置 的 多 元 函数 ， 因 此 从 某 种 意义 上 来 说 ,就 像 在 一 个 高 维 空间 中 定义 了 一 个 平面 。 有 些 人 可 
能 会 担心 :“ 是 不 是 必须 想象 其 他 维度 ? ”他 们 甚至 开始 发 悉 :“ 我 想象 不 出 四 维 空间 ， 更 不 用 
说 五 维 了 。” 是 不 是 他 们 缺少 顶尖 数学 家 独 有 的 超 能 力 ” 当 然 不 是 ， 实 际 上 大 多 数 顶 尖 数 学 家 也 
想象 不 出 四 维 空 间 的 样子 , 但 他 们 善 用 其 他 方法 进行 曾 释 。 如 前 所 述 , 我 们 通过 用 代数 ( 而 非 图 
像 ) 阐述 AC 来 计算 如 何 让 C 减 小 。 那 些 具备 高 维 空间 想象 能 力 的 人 往往 有 着 丰富 的 知识 储备 ， 
代数 便 是 其 中 之 一 。 这 些 技术 可 能 没有 惯常 思考 三 维 空间 那么 简单 , 但 当 你 构建 起 这 样 的 知识 储 
备 之 后 ,就 能 够 从 容 应 对 更 高 的 维度 了 。 这 里 不 再 深入 讨论 ,本 书 所 讲 的 某 些 技术 可 能 有 点 复杂 ， 
但 大 部 分 内 容 还 是 比较 直观 且 容 易 理 解 的 。 
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下 面 编 写 一 个 程序 来 学 习 如 何 识别 手写 数字 , 会 用 到 随机 梯度 下 降 算法 和 MNIST 训练 数据 。 
首先 获取 MNIST 数据 ， 可 以 使 用 Git 克隆 本 书 代 码 仓 库 : 








































































































git clone https://github.com/mnielsen/neural-networks-and-deep-learning.git 
除 此 之 外 ， 也 可 以 从 随 书 下 载 的 压缩 包 中 找到 数据 和 代码 。 


前 面 介绍 MNIST 数据 时 ， 提 到 它 分 为 60 000 幅 训练 图 像 和 10 000 幅 测 试图 像 ， 这 是 官方 描 
述 。 这 里 用 稍微 不 同 的 方法 划分 数据 一 一 测试 集 保持 原样 , 但 是 将 训练 集 分 成 两 部 分 : 一 部 分 包 
含 50 000 幅 图 像 ， 用 于 训练 神经 网 络 ， 其 余 10 000 幅 图 像 组 成 验证 集 。 本 章 不 使 用 验证 集 ， 但 
后 文 会 介绍 , 它 有 助 于 设置 神经 网 络 中 的 某 些 超 参数 , 例如 学 习 率 等 ,这 些 超 参数 不 能 由 学 习 算 
法 直接 选择 。 尽 管 验证 数据 不 是 原始 MNIST 数据 的 一 部 分 ,但 许多 人 以 这 种 方式 使 用 MNIST 
数据 ， 而 且 验 证 数据 在 神经 网 络 中 很 常用 。 后 文 在 提 到 “MNIST 训练 数据 ”时 ， 指 的 都 是 图 像 

































































26 第 1 章 使 用 神经 网 络 识别 手写 数字 














数量 为 50 000 幅 的 数据 集 ， 而 不 是 图 像 数 量 为 60 000 幅 的 原始 数据 集 "。 








除了 MNIST 数据 ， 还 要 用 到 Python 库 NumPy， 用 于 进行 快速 的 线性 代数 运算 。 





在 列 出 完整 的 代码 清单 之 前 ， 首 先 解释 一 下 神经 网 络 代 码 的 核心 特性 。 核 心 片段 是 一 个 
Network 类 ， 表 示 一 个 神经 网 络 。 以 下 代码 用 于 初始 化 一 个 Network 对 象 ; 




















class Network(object ) : 
def init (self, sizes): 
self.num layers = len(sizes) 
self.sizes = sizes 
self.biases = [np.random.randn(y, 1) for y in sizes[1:]] 
self.weights = [np.random.randn(y, x) 
for x, y in zip(sizes[:-1], sizes[1:])] 


在 这 段 代 码 中 ， 列 表 sizes 包含 各 层 神经 元 的 数量 。 例 如 创建 一 个 Network 对 象 ， 其 第 一 层 
有 2 个 神经 元 ， 第 二 层 有 3 个 神经 元 ， 最 后 一 层 有 1 个 神经 元 ， 代 码 如 下 所 示 : 





net = Network([2，3，1]) 

















Network 对 象 中 的 偏 置 和 权重 都 是 随机 初始 化 的 ， 使 用 NumPy 的 np.random.randn 函数 生成 
均值 为 0、 标准 差 为 1 的 高 斯 分 布 。 这 样 的 随机 初始 化 相当 于 随机 梯度 下 降 算 法 的 一 个 起 点 。 后 
文 会 介绍 更 好 的 方法 来 初始 化 权重 和 偏 置 ， 但 这 里 先 随 机 将 其 初始 化 。 注 意 ，Network 初始 化 代 
码 假设 第 一 层 神经 元 是 一 个 输入 层 , 并 且 不 对 其 设置 任何 偏 置 , 这 是 因为 偏 置 仅 在 后 面 的 层 中 用 
于 计算 输出 。 















































男 外 需要 注意 , 偏 置 和 权重 以 NumPy 和 矩阵 列表 的 形式 存储 。 例 如 ,net.weights[1] 是 一 个 存 
储 着 连接 第 2 层 和 第 3 层 神 经 元 权重 的 NumpPy 矩阵 (之 所 以 不 是 第 1 层 和 第 2 层 , 是 因为 Python 
列表 的 索引 从 0 开始 。) 由 于 net.weights[1] 相 当 宛 长 ， 因 此 可 以 用 wm 表示 和 矩阵。 矩阵 的 wj 是 连 















































接 第 2 层 第 下 个 神经 元 和 第 3 层 第 7 个 神经 元 的 权重 。7 了 和 大 的 顺序 可 能 略 显 奇怪 一 一 交换 二 者 
的 顺序 会 更 合理 吗 ? 使 用 这 种 顺序 的 一 大 优势 是 它 意味 着 第 3 层 神经 元 的 激活 向 量 是 
a'’=o(w:a+b) (22) 


这 个 方程 有 点 奇怪 ,下 面 展 开 分 析 。a 是 第 2 层 神经 元 的 激活 向 量 。 为 了 得 到 w' ,用 权重 矩 























Q 如 前 所 述 ，MNIST 数据 集 是 基于 由 NIST 收集 的 两 个 数据 集 而 来 的 。 为 了 构建 MNIST 数据 集 ，Yann LeCun、 
Corinna Cortes 和 Christopher J.C. Burges 把 NIST 数据 集 拆 分 成 了 更 简便 的 格式 。 本 书 代码 仓库 中 的 数据 集 易 于 
在 Python 中 加 载 和 处 理 。 
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阵 w 乘 以 a, 加 上 偏 置 向 量 5 ,然后 对 向 量 w.a+5b 中 的 每 个 元 素 应 用 函数 o (将 函数 o 向 量化 )， Cd 
即 可 验证 方程 (22) 的 结果 和 之 前 用 方程 (4) 计 算 sigmoid 神经 元 输出 的 相同 。 





练 习 


以 分 量 形式 写 出 方程 (22)， 并 了 验证 它 和 计算 sigmoid 神经 元 输出 的 规则 (4) 的 结果 相同 。 


基于 此 ， 很 容易 写 出 根据 一 个 Network 实例 计算 输出 的 代码 。 首 先 定义 sigmoid 函数 : 


def sigmoid(z) : 
return 1.0/(1.0+np.exp(-z)) 





注意 ， 当 输入 z 是 一 个 向 量 或 NumPy 数组 时 ，NumPy 自动 按 元 素 应 用 函数 sigmoid， 即 以 
向 量 形式 。 

然后 给 Network 类 添加 feedforward 方法 ， 对 于 给 定 输入 a， 神经 网 络 返 回 对 应 的 输出 ”。 该 
方法 所 做 的 是 对 每 一 层 应 用 方程 (22)。 


def feedforward(self, a): 
""" 若 a 为 输入 ， 则 返回 输出 。""" 
for b, w in zip(self.biases, self.weights): 
a = sigmoid(np.dot(w, a)+b) 
return a 


当然 ,使 用 Network 对 象 主要 是 为 了 学 习 ， 为 此 要 应 用 一 个 实现 随机 梯度 下 降 算 法 的 SGD 方 
法 ,代码 如 下 。 其 中 某 些 地 方 稍 复杂 ， 随 后 逐一 分 析 。 








def SGD(self, training data, epochs, mini batch size, eta, 


test data=None): 
""" 使 用 小 批量 随机 梯度 下 降 算 法 训练 神经 网 络 。training_data 是 由 训练 输入 和 目标 输出 的 元 组 (X，y) 


组 成 的 列表 。 其 他 非 可 选 参 数 容易 理解 。 如 果 提 供 了 test data， 那么 神经 网 络 会 在 每 轮训 练 结束 后 用 
测试 数据 进行 评估 ， 并 输出 部 分 进度 信息 。 这 对 于 追踪 进度 很 有 用 ， 不 过 会 延长 整体 处 理 时 间 。""" 
if test data: n test = len(test data) 
n = len(training_ data) 
for j in xrange(epochs): 

random. shuffle(training data) 

mini batches = [ 

training data[lk:k+mini batch sizel] 








Qa 这 里 假设 输入 a 是 一 个 (n, 1) 的 NumPy ndarray 数组 ， 而 不 是 一 个 (n, ) 向 量 ， 其 中 是 神经 网 络 的 输入 数量 。 如 果 
用 一 个 (n, 1) 


尝试 用 一 个 (n, ) 向 量 作为 输入 ,会 得 到 奇怪 的 结果 。 虽 然 使 用 (n, ) 向 量 看 似 是 更 自然 的 选择 ,但 是 使 
的 ndarray 数组 便于 修改 代码 来 实现 同时 前 馈 多 个 输入 。 
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for k in xrange(0, n, mini batch size)] 
for mini batch in mini batches: 

self.update mini batch(mini batch, eta) 
if test data: 

print "Epoch {0}: {1} / {2}".format( 

j, self.evaluate(test data), n test) 

else: 

print "Epoch {0} complete".format(j) 


training_data 是 一 个 (x，y) 元 组 的 列表 ， 表 示 训 练 输入 和 对 应 的 目标 输出 。 变 量 epochs 和 
mini_batch_size 分 别 表示 训练 轮 数 和 采样 的 小 批量 数据 的 大 小 ，eta 是 学 习 率 7 。 如 果 提 供 可 选 
参数 test_data, 那么 程序 会 在 每 轮训 练 后 评估 神经 网 络 , 并 输出 部 分 进展 。 这 有 助 于 追踪 进度 ， 
但 会 拖 慢 执行 速度 。 











代码 的 原理 如 下 : 每 轮 首 先 随机 将 训练 数据 打 乱 ,然后 将 其 分 成 适当 大 小 的 多 个 小 批量 , 这 
是 一 个 从 训练 数据 中 随机 采样 的 简单 方法 ; 然后 对 于 每 一 个 mini_batch 应 用 一 次 梯度 下 降 ， 这 
是 通过 代码 self.update _mini batch(mini batch，eta) 实 现 的 。 它 仅 使 用 mini_batch 中 的 训练 
数据 ， 根 据 单 次 梯度 下 降 的 迭代 来 更 新 神经 网 络 的 权重 和 偏 置 。update_mini_batch 方法 的 代码 
如 下 : 




















def update mini batch(self, mini batch, eta): 
""" 对 一 个 小 批量 应 用 梯度 下 降 算法 和 反 向 传播 算法 来 更 新 神经 网 络 的 权重 和 偏 置 。mini_batch 是 由 若干 
元 组 (X，y) 组 成 的 列表 ，eta 是 学 习 率 。""" 
nabla b = [np.zeros(b.shape) for b in self.biases] 





nabla w = [np.zeros(w.shape) for w in self.weights] 
for x, y in mini batch: 
delta nabla b, delta nabla w = self.backprop(x, y) 
nabla b = [nb+dnb for nb, dnb in zip(nabla b, delta nabla b)] 
nabla w = [nw+tdnw for nw, dnw jin zip(nabla w, delta nabla w)] 





self.weights = [w-(eta/len(mini batch))*nw 





for w, nw in zip(self.weights, nabla w)] 
self.biases = [b-(eta/len(mini batch))*nb 
for b, nb in zip(self.biases, nabla b)] 


大 部 分 工作 由 下 面 这 行 代码 完成 。 


delta_ nabla b, delta nabla w = self.backprop(x, y) 























这 行 代码 调用 了 backprop 方法 ， 它 是 反 向 传播 算法 的 实现 。 该 算法 用 于 快速 计算 代价 函数 
的 梯度 。 因 此 ，update_mini_batch 的 工作 仅仅 是 对 mini_batch 中 的 每 一 个 训练 样本 计算 梯度 ， 
然后 适当 更 新 self.weights 和 self.biases。 
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这 里 不 会 列 出 self.backprop 的 代码 。 第 2 章 将 介绍 反 向 传播 的 原理 ， 以 及 self.backprop 
的 代码 。 这 里 假设 它 按照 我 们 的 要 求 工作 ， 返 回 与 训练 样本 x 相关 的 代价 函数 的 合适 梯度 。 





下 面 看 一 下 完整 的 程序 ， 包 括 之 前 忽略 的 文档 注释 。 除 了 self.backprop ， 程 序 有 了 足够 的 
文档 注释 ， 所 有 繁重 工作 都 由 self.SGOD 和 self.update mini batch 完成 ， 这 在 前 面 提 过 了 。 
self.backprop 方法 利用 额外 的 函数 来 协助 计算 梯度 一 一 用 sigmoid prime 计算 sigmoid 函数 的 导 
数 ， 以 及 self.cost_derivative， 这 里 不 对 它 做 过 多 描述 。 查 看 代码 或 文档 注释 可 以 了 解 其 中 的 
要 点 (或 者 细节 ),， 第 2 章 将 详细 介绍 它们 。 注 意 ， 虽然 程序 看 起 来 很 长 ， 但 很 多 内 容 是 文档 注 
释 ， 用 于 解释 代码 。 实 际 上 ， 除 去 空格 和 注释 ， 程 序 代码 只 有 74 行 。 





























network.py 





该 模块 用 于 实现 针对 前 馈 神 经 网 络 的 随机 梯度 下 降 算法 。 通 过 反 向 传播 算法 计算 梯度 。 注 意 ， 这 里 着 重 于 让 代码 
简单 易 读 且 易 于 修改 ， 并 没有 进行 优化 ， 略 去 了 不 少 可 取 的 特性 。 


#### 库 
# 标准 库 
import Tandom 


# 第 三 方 库 
import numpy as np 


class Network(object): 


def init (self, sizes): 
""" 列 表 sizes 包含 对 应 层 的 神经 元 的 数目 。 如 果 列 表 是 [2，3，1]， 那 么 就 是 指 一 个 三 层 神 经 网 络 ， 
第 一 层 有 2 个 神经 元 ， 第 二 层 有 3 个 神经 元 ， 第 三 层 有 1 个 神经 元 。 使 用 一 个 均值 为 0、 标准 差 为 1 的 
高 斯 分 布 随 机 初始 化 神经 网 络 的 偏 置 和 权重 。 注 意 ,， 假设 第 一 层 是 一 个 输入 层 ， 一 般 不 会 对 这 些 神 经 元 
设 定 任何 偏 置 ， 这 是 因为 偏 置 仅 用 于 计算 后 面 层 的 输出 。""" 
self.num layers = len(sizes) 





self.sizes = sizes 
self.biases = [np.random.randn(y, 1) for y in sizes[1:]] 
self.weights = [np.random.randn(y, x) 

for x, y in zip(sizes[:-1], sizes[1:])] 


def feedforward(self, a): 
mn 若 a 为 输入 ， 则 返回 输出 。""" 
for b, w in zip(self.biases, self.weights): 
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a = sigmoid(np.dot(w, a)+b) 
return a 


def SGD(self, training data, epochs, mini batch size, eta, 
test data=None): 
""" 使 用 小 批量 随机 梯度 下 降 算 法 训练 神经 网 络 。training_data 是 由 训练 输入 和 目标 输出 的 元 组 (Xx，y) 
组 成 的 列表 。 其 他 非 可 选 参 数 容易 理解 。 如 果 提 供 了 test_data， 那 么 神经 网 络 会 在 每 轮训 练 结束 后 用 
测试 数据 进行 评估 ， 并 输出 部 分 进度 信息 。 这 对 于 追踪 进度 很 有 用 ， 不 过 会 延长 整体 处 理 时 间 。""" 
if test data: n test = len(test data) 
n = len(training data) 
for j in xrange(epochs): 
random. shuffle(training data) 
mini batches = [ 
training data[k:k+mini batch size] 
for k in xrange(0, n, mini batch size)] 
for mini batch in mini batches: 





self.update mini batch(mini batch, eta) 
if test data: 
print "Epoch {0}: {1} / {2}".format( 
j, self.evaluate(test data), n_ test) 
else: 
print "Epoch {0} complete".format(j) 


def update mini batch(self, mini batch, eta): 
""" 对 一 个 小 批量 应 用 梯度 下 降 算 法 和 反 向 传播 算法 来 更 新 神经 网 络 的 权重 和 偏 置 mini_batch 是 由 若干 
元 组 (X，y) 组 成 的 列表 ，eta 是 学 习 举 。""" 
nabla b = [np.zeros(b.shape) for b in self.biases] 
nabla w = [np.zeros(w.shape) for w in self.weights 
for x, y in mini batch : 
delta nabla b, delta nabla w = self.backprop(x, y) 
nabla b = [nb+dnb for nbp, dnb in zip(nabla b, delta nabla b)] 
nabla w = [nw+dnw for nw, dnw in zip(nabla w, delta nabla w)] 





self.weights = [w-(eta/len(mini batch))*nw 

for w, nw in zip(self.weights, nabla w)] 
self.biases = [b-(eta/len(mini batch))*nb 

for b, nb in zip(self.biases, nabla b)] 





def backprop(self, x, y): 
"" "返回 一 个 表示 代价 函数 C_X 梯度 的 元 组 (nabla bp，nabla w)。nabla b 和 nabla w 是 一 层 接 一 层 的 
numpy 数组 的 列表 ， 类 似 于 self.biases 和 self.weights。""" 
nabla b = [np.zeros(b.shape) for b in self.biases] 
nabla w = [np.zeros(w.shape) for w in self.weights] 
# 前 馈 
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activation = x 

activations = [x] # 一 层 接 一 层 地 存放 所 有 激活 值 
zs = [] # 一 层 接 一 层 地 存放 所 有 Z 向 量 

for b, w in zip(self.biases, self.weights): 





z = np.dot(w, activation)+b 

zs.append(z) 

activation = sigmoid(z) 

activations.append(activation) 
# 反 向 传播 
delta = self.cost derivative(activations[-1], y) * \ 

sigmoid prime(zs[-1]) 
nabla b[-1] = delta 
nabla w[-1] = np.dot(delta, activations[-2].transpose()) 
"" "注意 ,下 面 循环 中 的 变量 1 和 第 2 章 的 形式 稍 有 不 同 。 这 里 ] = 1 表示 最 后 一 层 神经 元 ，1 = 2 则 
表示 倒数 第 二 层 ， 以 此 类 推 。 这 是 对 书 中 方式 的 重 编号 ， 剖 在 利用 Python 列表 的 负 索 引 功 能 。""" 
for 1 in xrange(2, self.num layers): 

z = zs[-1] 

sp = sigmoid prime(z) 

delta = np.dot(self.weights[-1+1].transpose(), delta) * sp 

nabla b[-1] = delta 

nabla w[-1] = np.dot(delta, activations[-1-1].transpose()) 
return (nabla bp, nabla w) 











def evaluate(self, test data): 
""" 返 回 测试 输入 中 神经 网 络 输 出 正确 结果 的 数目 。 注 意 ， 这 里 假设 神经 网 络 输出 的 是 最 后 一 层 有 着 
最 大 激活 值 的 神经 元 的 索引 。""" 
test results = [(np.argmax(self.feedforward(x)), y) 
for (x, y) in test data] 
return sum(int(x == y) for (x, y) in test results) 


def cost derivative(self, output activations, y): 
""" 返 回 关 于 输出 激活 值 的 偏 导 数 的 向 量 。""" 
return (output activations-y) 


提 ## 其 他 函数 
def sigmoid(z) : 
"""sigmoid 函数 
return 1.0/(1.0+np.exp(-z)) 


def sigmoid prime(z): 
"""sigmoid 函数 的 导数 ”” 
return sigmoid(z)*(1-sigmoid(z)) 
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该 程序 识别 手写 数字 的 效果 如 何 ? 首先 加 载 MNIST 数据 ， 用 下 面 一 小 段 辅助 程序 mnist_ 
loader.py 来 完成 。 在 一 个 Python shell 中 执行 如 下 命令 : 














>>> import mnist loader 
>>> training data, validation data, test data = \ 
.. mnist loader.1load data wrapper() 


当然 , 这 也 可 以 用 单独 的 Python 程序 来 实现 。 如果 跟随 本 书 操作 , 用 Python shell 会 更 简便 。 














载 人 数据 集 后 ， 设 置 神经 网 络 有 30 个 隐藏 神经 元 。 导 入 Python 程序 network。 





>>> import network 
>>> net = network.Network([784，30，10]) 








最 后 ， 对 MNIST training_data 应 用 随机 梯度 下 降 学 习 30 轮 ， 小 批量 大 小 为 10， 学 习 率 
11=3.0。 


>>> net.SGD(training data, 30, 10, 3.0, test data=test data) 





注意 ,代码 运行 会 花费 一 些 时 间 。 对 于 一 台 普 通 的 计算 机 ,运行 时 长 可 能 达到 几 分 钟 。 建 议 
让 它 运 行 着 , 你 继续 阅读 并 时 不 时 检查 一 下 代码 输出 。 如 果 你 急于 看 到 结果 ,可 以 尝试 减少 训练 
轮 数 或 隐藏 层 神经 元 数量 ， 或 者 只 使 用 部 分 训练 数据 来 提高 速度 。 注 意 ， 这 些 Python 脚本 只 是 
为 了 说 明神 经 网 络 的 工作 方式 ， 而 非 高 性 能 的 代码 ! 当然 ,如 果 训 练 完 毕 ， 神 经 网 络 能 在 几乎 任 
何 计算 平台 上 快速 运行 。 例如, 一 旦 神经 网 络 学 到 了 一 组 好 的 权重 集 和 偏 置 集 ,就 可 以 很 容易 地 
将 其 移植 到 Web 浏览 器 中 作为 JavaScript 运行 , 或 者 用 作 移 动 设备 上 的 本 地 应 用 。 以 下 是 神经 网 络 
训练 运行 时 的 部 分 输出 脚本 。 输 出 内 容 显示 了 每 轮训 练 后 神经 网 络 能 正确 识别 测试 图 像 的 数量 。 
可 以 看 到 ， 仅 仅 一 轮 后 ， 正 确 分 类 数 便 达 到 了 9129 ( 总 计 10 000 )， 而 且 数 目 还 在 持续 增长 。 




































































Epoch 0: 9129 / 10000 
Epoch 1: 9295 / 10000 
Epoch 2: 9348 / 10000 


Epoch 27: 9528 / 10000 
Epoch 28: 9542 / 10000 
Epoch 29: 9534 / 10000 




















具体 地 说 , 神经 网 络 受训 后 的 识别 率 约 为 95%, 峰值 为 95.42% (第 28 轮 ) 对 于 首次 尝试 ， 
这 个 结果 非常 喜人 。 请 注意 ,如 果 你 运行 代码 所 得 的 结果 和 本 书 不 一 致 ， 那 是 因为 我 们 使 用 了 随 
机 的 权重 和 偏 置 来 初始 化 神经 网 络 。 本 章 选 用 了 3 次 运行 中 的 最 佳 结 
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重新 运行 前 面 的 试验 ， 将 隐藏 神经 元 数量 改 为 100。 如 前 所 述 ， 运 行 代 码 比 较 花 时 间 ( 在 我 en 








的 计算 机 上 ， 每 轮训 练 耗 时 几 十 秒 )， 因 此 比较 明智 的 做 法 是 在 代码 运行 的 同时 继续 阅读 。 


>>> net = network.Network([784, 100,10]) 
>>> net.SGD(training data, 30, 10, 3.0, test data=test data) 





OD 
率 人 
2 

[e) 


果然 , 识别 率 提升 到 了 96.59%。 至少 在 这 种 情况 下 , 使 用 更 多 隐藏 神经 元 有 助 于 提升 识别 





当然 ， 为 了 达到 如 此 高 的 准确 度 ， 不 得 不 选用 特定 的 训练 轮 数 、 小 批量 大 小 和 学 习 率 7。 如 
前 所 述 , 在 神经 网 络 中 把 它们 称 为 超 参 数 , 以 区 别 于 通过 学 习 算 法 所 学 到 的 参数 ( 权重 和 偏 置 )。 
如 果 选 择 了 糟糕 的 超 参数 ， 结 果 会 很 差 。 假 如 选 定 学 习 率 为 7 = 0.001 : 






























































>>> net = network.Network([784，100，10]) 
>>> net.SGD(training data, 30, 10, 0.001, test data=test data) 


结果 不 太 理 想 : 


Epoch 0: 1139 / 10000 
Epoch 1: 1136 / 10000 
Epoch 2: 1135 / 10000 


Epoch 27: 2101 / 10000 
Epoch 28: 2123 / 10000 
Epoch 29: 2142 / 10000 








然而 , 可 以 看 到 神经 网 络 的 表现 随 着 时 间 的 推移 慢 慢 地 改善 了 。 这 表明 应 增 大 学 习 率 , 例如 


令 7=0.01。 这 样 做 可 以 得 到 更 好 的 结 








， 同 时 表明 应 该 继续 增 大 学 习 率 。 如 果 这 样 操作 几 次 ， 





最 终 会 得 到 像 7 =1.0 这 样 的 学 习 率 ( 或 者 调整 到 3.0 ), 这 跟 之 前 的 试验 很 接近 。 因 此 ， 即 使 最 初 
选择 了 糟糕 的 超 参数 ， 至 少 也 能 获得 足够 的 信息 来 优化 对 于 超 参 数 的 选择 。 











调试 神经 网 络 通常 颇具 挑战 性 ， 尤 其 是 当初 始 超 参 数 的 选择 导致 结果 不 如 随机 噪声 时 更 是 


























如 此 。 假 如 使 用 之 前 表现 不 错 的 具有 30 个 隐藏 神经 元 的 架构 ， 但 将 学 习 率 改 为 了 =100.0 : 





>>> net = network.Network([784，30，10]) 
>>> net.SGD(training data, 30, 10, 100.0, test data=test data) 


过 犹 不 及 ， 这 个 学 习 率 太 高 了 。 














GD 有 读者 反馈 说 试验 结果 有 相当 多 的 变化 ， 而 且 一 些 训练 运行 的 结果 相当 糟糕 。 运 用 第 3 章 将 介绍 的 技术 将 显著 缩 
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进行 不 同 训练 时 神经 网 络 表 现 的 差别 。 
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0: 1009 
Epoch 1: 1009 
2: 1009 
3: 1009 


Epoch 27: 982 
Epoch 28: 982 
Epoch 29: 982 





0000 
0000 
0000 
0000 


So Te 


ws 


0000 
0000 
0000 


ee 





Ts 


假设 这 是 第 一 次 遇 到 这 种 问题 。 当 然 ， 从 之 前 的 试验 中 可 知 正确 的 做 法 是 降低 学 习 率 , 但 是 
如 果 第 一 次 遇 到 这 种 问题 , 那么 输出 结果 就 不 会 有 太 多 信息 能 指导 行动 。 我 们 可 能 不 仅 关心 学 习 
率 , 还 要 关心 神经 网 络 中 的 其 他 部 分 。 是 否 初始 的 权重 和 偏 置 让 神经 网 络 很 难 学 习 ? 是 否 没有 足 
够 的 训练 数据 来 实现 有 效 的 学 习 ? 是 否 训练 没有 执行 足够 的 轮 数 ? 是 否 这 种 架构 的 神经 网 络 无 
法 学 会 识别 手写 数字 ? 学习 率 可 能 太 低 或 太 高 ? 在 第 一 次 遇 到 这 种 问题 时 ， 不 会 总 是 胸有成竹 。 













































































由 此 可 知 , 调试 神经 网 络 并 非 无 关 紧 要 ， 而 像 编程 一 样 是 一 门 艺 术 ， 因 此 需要 学 习 调试 技巧 
来 提升 神经 网 络 的 表现 。 更 普遍 的 是 , 需要 运用 启发 式 方法 来 选择 好 的 超 参数 和 架构 。 本 书 会 持 

















续 讨论 这 些 话题 ， 


试 着 创建 一 个 仅 有 两 层 的 神经 网 络 ， 一 个 输入 层 和 一 个 输出 层 











包括 如 何 选择 超 参数 。 





练 习 
分 别 有 784 个 和 10 个 神 


， 分 
经 元 ,没有 隐藏 层 。 用 随机 梯度 下 降 算 法 训练 该 神经 网 络 ， 识 别 率 能 达到 多 少 ? 


前 面 省 略 了 加 载 MNIST 数据 的 细节 ,这 很 容易 操作 ,下 面 列 出 完整 的 代码 。 用 于 存储 MNIST 
数据 的 数据 结构 在 文档 注释 中 有 详细 描述 , 都 是 简单 的 类 型 , 如 元 组 和 NumPy ndarray 对 象 列表 
(如 果 不 熟悉 ndarray， 可 以 把 它们 看 作 向 量 )。 





mnist loader 


一 个 加 载 MNIST 
事 。 在 实践 中 ， 


指 ## 库 

# 标准 库 
import cpPick]le 
import gzip 

















图 像 数据 的 库 。 关 于 返回 的 数据 结构 的 细节 ， 参 见 1oad_ data 和 10ad_data_wrapper 的 文档 字符 
0ad_data_wrapper 通常 是 神经 网 络 代码 调用 的 函数 。 
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# 第 三 方 库 
import numpy as np 


def lo0ad data(): 
""" 以 元 组 形式 返回 MNIST 数据 ， 包 含 训练 数据 、 验 证 数据 和 测试 数据 。 


def 


返回 的 training_ data 是 有 两 项 的 元 组 ， 第 一 项 包含 实际 的 训练 图 像 ， 是 一 个 有 50 000 项 的 NumPy ndarray。 
每 一 项 是 一 个 有 着 784 个 值 的 NumPy ndarray， 代表 一 幅 MNIST 图 像 中 的 28 x 28=784 像素 。 





元 组 training_data 的 第 二 项 是 一 个 包含 50 000 项 的 NumPy ndarray， 这些 项 对 应 于 元 组 第 一 项 中 包含 的 





图 像 数 字 (0 一 9) 。 





validation data 和 test data 类 似 ， 但 图 像 仅 有 10 000 幅 。 


这 种 数据 格式 很 好 ， 但 在 神经 网 络 中 ， 对 training_data 的 格式 进行 微调 很 有 用 。 这 通过 封装 函数 
1oad data wrapper() 


完成 ， 参 见 下面 的 代码 。""" 


f = gzip.open('../data/mnist.pkl.gz', 'rb') 


training data, validation data, test data = CPickle.1oad(f) 


f.close() 


return (training data, validation data, test data) 








load data wrapper() 
""" 返 回 一 个 元 组 ， 包 含 (training data, validation data, test data)。 基 于 10ad data， 但 是 这 个 格式 更 
便于 实现 神经 网 络 。 





training_data 是 一 个 包含 50 000 个 二 元 组 (X，y) 的 列表 ， 其 中 X 是 一 个 784 维 的 NumPy ndarray， 对 应 输入 
图 像 ; y 是 一 个 10 维 的 NumPy ndarray， 表 示 对 应 X 正确 数字 的 单位 向 量 。 


validation data 和 test_ data 各 包含 10 000 个 二 元 组 (X, y)， 其 中 X 是 一 个 包含 输入 图 像 的 784 维 的 NumPy 
ndarray; y 是 相应 的 分 类 ， 对 应 于 X 的 值 (整数 )。 





显然 ， 这 意味 着 训练 数据 、 验 证 数据 和 测试 数据 采用 不 同 的 格式 。 这 些 格式 对 于 神经 网 络 代码 来 说 是 最 
方便 的 。" 


tr d, va d, te d = load data() 





[Ta 


Les 





[es 


trai 
trai 
vali 
vali 


ining inputs = [ 
ning results = 

ning data = zip 
dation inputs = 
dation data = z 
t inputs = [np.r 





t data = zip(tes 





return (training da 


np.reshape(x, (784, 1)) for x in tr d[0]] 
vectorized result(y) for y in tr d[1]] 
training inputs, training results) 
[np.reshape(x, (784, 1)) for x in va d[0]] 
ip(validation inputs, va d[1]) 

eshape(x, (784, 1)) for x in te d[0]] 

t inputs, te d[1]) 

ta, validation data, test data) 
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def vectorized result(j): 
"" "返回 一 个 10 维 的 单位 向 量 ， 在 第 了 个 位 置 为 1.0， 其 余 均 为 0。 这 可 以 用 于 将 一 个 数字 (0 一 9) 转换 成 
神经 网 络 的 一 个 对 应 的 目标 输出 。""" 
e = np.zeros((10, 1)) 
e[j] = 1.0 
return e 





前 面 提 到 程序 取得 了 很 好 的 结果 。 这 意味 着 什么 呢 ? 和 什么 相 比 称 得 上 好 呢 ? 用 一 些 简单 的 
( 非 神经 网 络 的 ) 基线 测试 作为 对 比 有 助 于 评估 神经 网 络 的 表现 。 最 简单 的 基线 当然 是 随机 猜 些 
数字 ， 那 可 能 有 10% 的 次 数 是 正确 的 ， 我 们 要 争取 超过 它 ! 











使 用 一 个 较 差 的 基线 会 怎样 ? 下 面 尝试 一 种 极其 简单 的 想法 : 看 一 幅 图 像 有 多 么 暗 ， 例 如 2 
的 图 像 通常 要 比 1 的 图 像 稍 暗 ， 因 为 更 多 像素 是 黑 的 ， 如 图 1-28 所 示 。 
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1-28 




















这 表明 可 以 用 训练 数据 来 计算 数字 图 像 的 平均 明暗 度 。 对 于 一 幅 新 图 像 , 首先 计算 其 明暗 度 ， 
然后 猜测 它 接近 哪个 数字 的 平均 明暗 度 。 这 是 一 个 简单 的 程序 ,而 且 容 易 编 写 代码 ， 所 以 这 里 不 
再 袭 述 。 如 果 你 有 兴趣 ， 可 以 查看 GitHub 仓库 中 的 代码 。 它 和 随机 猜测 相 比 有 了 很 大 的 进步 。 
对 于 10 000 幅 测 试图 像 ， 它 猜 中 了 2225 幅 ， 准 确 率 为 22.25% 。 





























有 很 多 方法 能 将 准确 率 提升 至 20% ~ 50%， 其 至 可 以 超过 50%。 要 想 达 到 更 高 的 准确 率 ， 可 
以 采用 已 被 广泛 认可 的 机 器 学 习 算 法 。 下面 尝试 其 中 最 著名 的 一 种 算法 一 一 支持 向 量 机 ( support 
vector machine，SVM )。 不 熟悉 SVM 也 没有 关系 ,这 里 不 需要 透彻 理解 SVM 的 工作 机 制 。 我 们 
将 使 用 Python 程序 库 scikit-learn， 它 提供 了 一 个 简单 的 Python 接口 。 通 过 该 接口 ， 可 以 使 用 专 
为 SVM 开发 的 LIBSVM， 这 是 基于 C 语言 的 库 ， 且 运行 速度 快 。 


























如 果 以 默认 设置 运行 scikit-learn 的 SVM 分 类 器 ， 那 么 对 于 10 000 幅 测试 图 像 ， 它 能 准确 分 
类 9435 幅 。 这 是 很 大 的 改善 ,， 远 远 好 于 基于 明暗 度 的 图 像 分 类 方法 。 确 实 , 这 意味 着 SVM 几乎 
和 神经 网 络 表 现 相 当 了 。 后 文 会 介绍 新 技术 ， 能 够 提升 神经 网 络 表 现 ， 使 其 超过 SVM。 











然而 实际 情况 没 这 么 简单 ，9435/10 000 的 结果 基于 scikit-learn 针对 SVM 的 默认 设置 。SVM 
有 很 多 可 调 参 数 ,因此 可 以 通过 调整 参数 来 提升 表现 。 本 书 不 会 对 此 展开 讨论 , 如 果 想 了 解 更 多 ， 
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可 以 参考 Andreas Mueller 的 博客 文章 “MNISTfor ever”。Mueller 展示 了 一 些 优 化 SVM 参数 的 方 [二 
法 ， 有 可 能 把 准确 率 提高 至 98.5%。 换言之 , 优化 过 的 SVM 误差 率 仅 为 170。 这 已 经 非常 好 了 ， 
神经 网 络 可 以 做 得 更 好 吗 ? 





事实 上 是 可 以 的 。 目 前 对 于 MNIST 问题 ， 精 心 设计 的 神经 网 络 胜 过 其 他 技术 ， 包 括 SVM。 
2013 年 的 纪录 是 10 000 幅 图 像 中 正确 分 类 了 9979 幅 , 是 由 Li Wan Matthew Zeiler Sixin Zhang、 
Yann LeCun 和 Rob Fergus 实现 的 。 本 书 稍 后 将 介绍 他 们 所 用 的 大 部 分 技术 。 这 已 经 接近 人 类 的 
水 平 了 , 甚至 可 以 说 超过 人 类 了 。 这 是 因为 , 有 相当 多 的 MNIST 图 像 , 连 人 类 都 没有 把 握 识 别 ， 
如 图 1-29 所 示 。 
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图 1-29 





















































这 些 数字 确实 很 难 辨认 。 考 虑 到 MNIST 数据 集中 有 这 样 的 图 像 ， 对 于 10 000 幅 测试 图 像 ， 
中 经 网 络 能 准确 识别 除了 21 幅 以 外 的 其 他 所 有 图 像 ， 表 现 相 当 卓 越 。 通 常 认为 编程 时 解决 类 似 
于 识别 MNIST 数字 的 问题 需要 复杂 的 算法 , 但 即使 是 Li Wan 等 人 的 论文 中 用 到 的 神经 网 络 , 也 
只 涉及 相当 简单 的 算法 和 本 章 讲 到 的 算法 的 变 体 。 所 有 的 复杂 性 都 是 神经 网 络 自动 从 训练 数据 中 
学 到 的 。 在 某 种 意义 上 ， 我 们 的 结果 和 那些 论文 都 表明 ， 对 于 某 些 问 题 ， 以 下 不 等 式 成 立 。 
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复杂 的 算法 < 简单 的 学 习 算 法 + 好 的 训练 数据 
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虽然 前 面 设计 的 神经 网 络 表现 亮 眼 , 但 也 伴随 着 一 些 迷 雾 。 神 经 网 络 中 的 权重 和 偏 置 是 被 自 
动 发 现 的 , 这 意味 着 无 法 解释 神经 网 络 的 运行 机 制 和 行为 。 能 否 找 到 一 些 方 法 来 理解 神经 网 络 分 
类 手写 数字 的 原理 ? 还 有 ， 这 些 原理 有 助 于 指导 行为 吗 ? 











为 了 具象 化 这 些 问 题 , 假设 数 十 年 后 神经 网 络 促成 了 真正 的 人 工 智能 出 现 , 那 时 我 们 能 明白 
这 种 智能 网 络 的 工作 机 制 吗 ? 或许, 因为 权重 和 偏 置 是 神经 网 络 主动 学 到 的 , 所 以 我 们 无 法 理解 
它 的 工作 机 制 。 在 人 工 智能 研究 的 早期 阶段 ， 人们 希望 在 构建 人 工 智能 的 同时 ,探究 智能 背后 的 
机 制 以 及 人 脑 的 运作 机 制 ， 但 结果 可 能 是 我 们 对 二 者 都 无 法 理解 。 
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为 了 解决 这 些 问题 , 我 们 重新 思考 一 下 章 首 给 出 的 人 工 神经 元 的 解释 。 假 设 要 判断 一 幅 图 像 
是 否 包 含 人 脸 ， 如 图 1-30? 所 示 。 























图 1-30 








可 以 用 解决 手写 数字 识别 问题 的 方法 来 解决 这 个 问题 : 神经 网 络 的 输入 是 图 像 的 像素 , 输出 
是 单个 神经 元 ， 用 于 表明 “是 ， 这 包含 人 脸 ” 或 “不 ， 这 不 包含 人 脸 ”。 









































假设 采取 这 个 方法 , 但 接 下 来 先 不 考虑 学 习 算法 ,而 是 尝试 设计 一 个 神经 网 络 ， 并 为 它 选择 
合适 的 权重 和 偏 置 。 要 怎样 做 呢 ? 暂时 忽略 神经 网 络 ， 一 个 想法 是 将 该 问题 分 解 成 子 问题 : 图 像 
的 左上 角 有 一 只 眼睛 吗 ? 右上 角 有 一 只 眼睛 吗 ? 中 间 有 一 个 鼻子 吗 ?” 中 下 部 有 一 张嘴 吗 ?” 上 部 
有 头发 吗 ? 诸如 此 类 。 




















如 果 一 些 问题 的 答案 为 “是 ”， 或 者 仅仅 为 “可 能 是 ,那么 可 以 得 出 结论 : 图 中 可 能 有 一 张 
人 脸 。 相 反 ， 如 有 果 这 些 问 题 的 大 多 数 答案 为 “不 是 "， 那 么 图 中 可 能 没有 人 脸 。 























当然 , 这 仅仅 是 一 个 粗略 的 想法 , 它 存在 许多 缺陷 : 也 许 有 人 是 光头 ， 也 许 图 像 仅仅 呈现 了 
脸 的 一 部 分 , 或 者 画面 为 特定 角度 ,因此 一 些 面部 特征 是 模糊 的 。 不 过 这 个 想法 表明 如 果 能 够 使 
用 神经 网 络 来 解决 这 些 子 问题 , 也 许可 以 将 这 些 解决 子 问题 的 神经 网 络 组 合成 一 个 能 够 检测 人 脸 
的 神经 网 络 。 图 1-31 是 一 个 参考 架构 ， 其 中 的 方 框 代表 子 神经 网 络 。 注 意 ,这 不 是 人 脸 检 测 问题 
的 实际 解决 方法 ， 而 是 为 了 直观 展现 神经 网 络 的 运行 原理 。 















































GD 照片 来 源 : 1. Ester Inbar; 2. 未 知 ; 3.NASA,ESA, G. Illingworth, D. Magee, and P. Oesch (University of California, Santa 
Cruz), R. Bouwens (Leiden University), and the HUDF09 Team。 














输入 层 


左上 角 有 一 只 眼睛 吗 ? 
(图 像 像素 ) 








右上 角 有 一 只 眼睛 吗 ? 





中 间 有 一 个 鼻子 吗 ? 








? 这 是 一 张 人 脸 吗 ? 
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中 下 部 有 一 张嘴 吗 ? 








上 部 有 头发 吗 ? 








图 1-31 

子 神 经 网 络 可 以 继续 分 解 。 假 设 我 们 正在 考虑 以 下 问题 :“ 左 上 角 有 一 只 眼睛 吗 ?” ”这 可 以 
分 解 为 以 下 问题 :“ 有 眉毛 吗 ? ”“ 有 了 睫毛 吗 ? ”“ 有 虹膜 吗 ?” ”诸如 此 类 。 当 然 ， 这 些 问题 也 应 
该 包含 位 置信 息 ， 例 如 “左上 角 、 虹 膜 上 方 有 眉毛 吗 ? ”但 应 保持 问题 简单 ， 如 图 1-32 所 示 。 











左上 角 有 一 只 眼睛 吗 ? 











有 虹膜 吗 ? 








图 1-32 

同样 ， 这些 子 问题 可 以 继续 分 解 ， 并 通过 多 个 神经 网 络 层 传播 得 更 远 。 最 终 ， 子 神经 网 络 可 
以 回答 那些 只 包含 若干 个 像素 点 的 简单 问题 。 这 些 简单 的 问题 可 能 是 询问 图 像 中 的 几 个 像素 是 否 
构成 了 非常 简单 的 形状 ， 而 那些 与 图 像 中 原始 像素 点 相连 的 单个 神经 元 可 以 作答 。 
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最 终 的 结果 是 ,设计 出 的 神经 网 络 将 一 个 非常 复杂 的 问题 ( 这 张 图 像 是 否 有 一 张 人 脸 ) 分 解 
成 在 单个 像素 层面 就 能 回答 的 简单 问题 。 它 通过 一 系列 多 层 结构 来 完成 ,在 前 面 的 层 , 它 回答 关 
于 输入 图 像 非常 简单 明确 的 问题 ; 在 后 面 的 层 , 它 建立 了 更 加 复杂 和 抽象 的 层次 结构 。 包 含 这 种 
多 层 结 构 ( 两 层 或 更 多 隐藏 层 ) 的 神经 网 络 称 为 深度 神经 网 络 。 



































当然 , 前面 没 有 提 到 如 何 递 归 地 分 解 神经 网 络 。 手 动 设置 权重 和 偏 置 无 疑 是 不 切实 际 的 ， 而 
应 使 用 学 习 算法 来 让 神经 网 络 主动 从 训练 数据 中 学 习 权重 和 偏 置 (概念 的 层次 结构 )。20 世纪 八 
九 十 年 代 的 研究 人 员 尝 试 使 用 随机 梯度 下 降 和 反 向 传播 来 训练 深度 神经 网 络 。 然而, 除了 一 些 特 
殊 的 架构 ， 效 果 并 不 理想 。 虽 然 神经 网 络 能 够 学 习 ， 但 是 学 习 得 非常 缓慢 ， 没 有 实用 价值 。 





















































自 2006 年 以 来 ， 人 们 已 经 开发 出 了 一 系列 技术 驱动 深度 神经 网 络 学 习 。 这 些 深度 学 习 技术 
基于 随机 梯度 下 降 和 反 向 传播 , 并 采纳 了 新 的 想法 。 这 些 技术 已 经 能 够 训练 更 深 、 更 大 的 神经 网 
络 一 一 现在 训练 有 5 ~ 10 个 隐藏 层 的 神经 网 络 很 普遍 。 而 且 事实 证 明 , 在 许多 问题 上 , 它们 比 那 
些 浅 层 神 经 网 络 〈 例如 仅 有 一 个 隐藏 层 的 神经 网 络 ) 表现 更 为 出 色 。 当 然 , 原因 是 深度 神经 网 络 
能 够 构建 出 复杂 概念 的 层次 结构 。 这 有 点 像 传统 编程 语言 使 用 模块 化 的 设计 和 抽象 的 思想 来 创建 
复杂 的 计算 机 程序 。 将 深度 神经 网 络 与 浅 层 神经 网 络 进行 对 比 , 类 似 于 将 一 个 能 够 进行 函数 调用 
的 编程 语言 与 一 个 不 能 进行 函数 调用 的 精简 语言 进行 对 比 。 抽象 在 神经 网 络 中 的 形式 与 传统 的 编 
程 方式 不 同 ， 但 同样 重要 。 































































































第 2 章 


反问 传播 算法 工作 原理 











第 1 童 介绍 了 神经 网 络 如 何 使 用 梯度 下 降 算 法 来 学 习 权 重 和 偏 置 , 但 其 中 存在 一 个 问题 : 没 
有 讨论 如 何 计算 代价 函数 的 梯度 。 本 章 会 讲解 计算 这 些 梯 度 的 快速 算法 一 一 反 向 传播 算法 。 








反 向 传播 算法 诞生 于 20 世纪 70 年 代 ， 但 直到 David Rumelhart、Geoffrey Hinton 和 Ronald 
Williams 于 1986 年 发 表 了 一 篇 著名 的 论文 ”， 人 们 才 意 识 到 其 重要 性 。 这 篇 论文 阐述 了 对 于 一 些 
经 网 络 ， 反 向 传播 算法 比 传统 方法 更 快 ， 这 使 得 之 前 无 法 解决 的 问题 可 以 诉 诸 神经 网 络 。 如 今 ， 
反问 传播 算法 已 经 成 为 神经 网 络 学 习 的 重要 组 成 部 分 。 























2 
战 





本 章 比 其 他 章 包 含 更 多 数学 内 容 。 如 果 你 对 数学 不 是 特别 感 兴趣 ,可 以 跳 过 本 章 , 将 反 向 传 
播 当 成 一 个 黑 盒 ， 忽 略 其 中 的 细节 。 有 既然 如 此 ， 为 何 要 研究 这 些 细节 呢 ? 






































答案 是 为 了 加 强 理解 。 反 向 传播 的 核心 是 对 代价 函数 C 关于 任何 权重 w (或 者 偏 置 。 ) 的 
裔 导 数 6C /6w 的 表达 式 。 该 表达 式 用 于 计算 改变 权重 和 偏 置 时 代价 变化 的 快慢 。 尺 管 表达 式 有 
点 复杂 ， 但 有 其 内 在 逻辑 一 一 每 个 元 素 都 很 直观 。 因 此 ， 反 向 传播 不 仅仅 是 一 种 快速 的 学 习 算 法 ， 
实际 上 它 还 告诉 我 们 如 何 通过 改变 权重 和 偏 置 来 改变 整个 神经 网 络 的 行为 , 这 也 是 学 习 反 向 传播 
细节 的 价值 所 在 。 


如 前 所 述 ,你 既 可 以 阅读 本 章 , 也 可 以 直接 跳 到 下 一 章 。 即 使 把 反 向 传播 看 作 黑 盒 ， 也 可 以 
掌握 书 中 的 其 余 内 容 。 当 然 ， 后 文 会 涉及 本 章 的 结论 。 不 过 ,对 于 这 些 知识 点 ， 即 使 你 不 了 解 推 
导 细 方 ， 也 应 该 能 理解 主要 结论 。 


2.1 热身 : 使 用 答 阵 快速 计算 输出 
讨论 反 向 传播 前 ， 首 先 介绍 一 下 如 何 通过 基于 和 矩阵 的 算法 来 计算 神经 网 络 的 输出 。 实 际 上 ， 



















































































GD Learning representations by back-propagating errors. 
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1.6 节 提 到 了 这 个 算法 , 但 未 讨论 细节 ,下 面 详 述 。 这 样 做 有 助 于 你 在 熟悉 的 场景 中 理解 反 向 传播 
中 使 用 的 矩阵 表示 。 








首先 给 出 神经 网 络 中 权重 的 清晰 定义 。" 凡 表示 第 (上 D) 层 的 第 丰 个 神经 元 到 第 1 层 第 j 个 神经 
元 的 连接 的 权重 。 图 2-1 给 出 了 神经 网 络 中 第 2 层 的 第 4 个 神经 元 到 第 3 层 的 第 2 个 神经 元 的 连 
接 的 权重 。 








wi 第 (1 一 ]) 层 的 第 个 神经 元 到 第 1 层 的 
第 7 个 神经 元 的 连接 的 权重 











这 样 的 表示 粗 看 上 去 比较 奇怪 ， 需 要 花 一 点 时 间 消 化 。 稍 后 你 会 发 现 这 种 表示 方便 且 自 然 。 
下 标 7 和 天 的 顺序 可 能 会 引起 困惑 ， 有 人 觉得 反 过 来 更 合理 。 下 面 介绍 这 样 做 的 原因 。 











经 网 络 的 偏 置 和 激活 值 也 使 用 类 似 的 表示 ,用 以 表示 第 1 层 第 j 个 神经 元 的 偏 置 ， 用 a 表 
示 第 7 层 第 /个 神经 元 的 激活 值 。 图 2-2 清楚 地 展示 了 这 种 表示 的 含义 。 

















dy 

















图 2-2 


有 了 这 些 表示 ， 第 / 层 第 7 个 神经 元 的 激活 值 a; 就 和 第 (1) 层 的 激活 值 通过 方程 关联 起 来 了 
(对 比方 程 (4) 和 第 1 章 的 讨论 ) 


a’ = 5 wiar”" + | (23) 
大 
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其 中 求 和 是 对 第 (六 D) 层 的 所 有 磊 个 神经 元 进行 的 。 为 了 以 矩阵 的 形式 重 写 该 表达 式 ， 我 们 对 层 / 
定义 一 个 权重 矩阵 w ，w' 的 元 素 正 是 连接 到 第 7 层 神经 元 的 权重 ， 更 确切 地 说 ， 第 7 行 第 大 列 的 
元 素 是 wi, 。 类 似 地 , 对 层 ! 定 义 一 个 偏 置 向 量 b 。 由 此 可 推导 出 偏 置 向 量 的 分 量 其 实 就 是 前 面 给 
出 的 六 ， 每 个 元 素 对 应 第 ! 层 的 每 个 神经 元 。 然 后 定义 激活 向 量 & ， 其 分 量 是 激活 值 w 。 






































人 
含义 就 是 对 向 量 v 中 的 每 个 元 素 应 用 函数 (比如 ce )。 我 们 使 用 o(v) 来 表示 按 元 素 应 用 函数 。 
所 以 ， ac) 的 每 个 元 素 满足 o(v), = o(v,) 。 如 果 函 数 是 f(x) = x ”， 那 么 向 量化 的 了 作用 如 下 : 


加 Ee 四 (24) 


也 就 是 说 ， 向 量化 的 了 仅 对 向 量 的 每 个 元 素 进行 平方 运算 。 









































有 了 这 些 表 示 ， 方程 (23) 就 可 以 写成 简洁 的 问 量 形式 了 ， 如 下 所 示 : 
4 =o(w'ia’!+b’) (25) 


该 表达 式 让 我 们 能 够 以 全 局 视角 考虑 每 层 的 激活 值 和 前 一 层 激 活 值 的 关联 方式 : 我 们 仅仅 把 
权重 和 矩阵 应 用 于 激活 值 ， 然 后 加 上 一 个 偏 置 向 量 ， 最 后 应 用 sigmoid 函数 "。 这 种 全 局 视角 比 神 
经 元 层面 的 视角 更 简洁 (没有 用 索引 下 标 )。 这 样 做 既 保 证 了 清晰 表达 ， 又 避免 了 使 用 下 标 。 在 
实践 中 , 表达 式 同样 很 有 用 ,因为 大 多 数 和 矩阵 库 提 供 了 实现 矩阵 乘法 、 向 量 加 法 和 向 量化 的 快捷 
方法 。 实 际 上 ， 第 1 章 的 代码 隐 式 地 使 用 了 这 种 表达 式 来 计算 神经 网 络 的 输出 。 


























在 使 用 方程 25) 计 算 @ 的 过 程 中 ,我 们 计算 了 中 间 量 z = wa + 及 。 这 个 中 间 量 其 实 非 党 
有 用 : 我 们 将 z! 称 作 第 / 层 神经 元 的 带 权 输入 ， 稍 后 深入 探究 。 方 程 (25) 有 时 会 写成 带 权 输入 的 
形式 al = ce) 。 此 外 ，z 的 分 量 为 才 = 马 wat + 中 ， 其 实 纪 就 是 第 ! 层 第 7 个 神经 元 的 激 


函数 的 带 权 输 入 。 
2.2 ”关于 代价 函数 的 两 个 假设 


反 向 传播 用 于 计算 代价 函数 C 关于 w 和 5b 的 偏 导数 6C /Ow 和 6C/6b。 为 了 利用 反 向 传播 ， 
需要 针对 代价 函数 做 出 两 个 主要 假设 。 在 此 之 前 ， 先 看 一 个 具体 的 代价 函数 。 我 们 会 使 用 第 1 章 



























































@ 其 实 ， 这 就 是 不 使 用 之 前 的 下 标 表 示 〈 上 ) 的 初 因 。 如 果 用 j 来 索引 输入 神经 元 ， 用 索引 输出 神经 元 ， 那 么 在 
方程 (25) 中 需要 对 这 里 的 矩阵 进行 转 置 。 这 个 小 的 改变 会 带 来 麻烦 ， 本 可 以 简单 地 表述 为 “将 权重 矩阵 应 用 于 激 
活 值 ”。 
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中 的 二 次 代价 函数 ， 参 见方 程 (6)。 按 照 前 面 给 出 的 表示 ， 二 次 代价 函数 的 形式 如 下 : 


Cay P (26) 
2n 全 


























其 中 是 训练 样本 的 总 数 ， 求 和 运算 遍历 了 训练 样本 x，y=y (9 是 对 应 的 目标 输出 , 工 表示 神经 
网 络 的 层 数 ，a’ =a’(x) 是 当 输 入 为 x 时 神经 网 络 输出 的 激活 向 量 。 


















































为 了 应 用 反 向 传播 ,需要 对 代价 函数 C 做 出 什么 前 提 假 设 呢 ?第 一 个 假设 是 代价 函数 可 以 写 
成 在 每 个 训练 样本 x 上 的 代价 函数 C. 的 均值 ， 即 C=: 巡 ,C, 。 这 是 关于 二 次 代价 函数 的 例子 ， 
对 于 其 中 每 个 单独 的 训练 样本 ， 其 代价 是 C, = > py-aI。 对 于 书 中 提 到 的 其 他 代价 函数 ， 该 
假设 也 成 立 。 
























































需要 这 个 假设 的 原因 是 反 向 传播 实际 上 是 对 单独 的 训练 样本 计算 了 6C./6w 和 6C./6D ， 然 
后 在 所 有 训练 样本 上 进行 平均 得 到 6C /6w 和 6C/6b。 实 际 上 ， 基 于 该 假设 ,训练 样本 x 相当 于 
固定 了 ， 丢 掉 了 下 标 ， 将 代价 函数 C, 写 成 了 C 。 最 终 我 们 会 把 下 标 加 上 ,但 现在 这 样 做 是 为 了 
简化 表示 。 






































第 二 个 假设 就 是 代价 函数 可 以 写成 神经 网 络 输出 的 函数 ， 如 图 2-3 所 示 。 











代价 函数 C= C(a”) 








例如 二 次 代价 函数 满足 该 要 求 ， 因 为 对 于 单独 的 训练 样本 x ， 其 二 次 代价 函数 可 以 写成 : 


1 1 
C==l|y-al ==7(y,-a’) (27) 
2 2 





























这 是 关于 输出 激活 值 的 函数 。 当 然 ， 该 代价 函数 还 依赖 目标 输出 y， 你 可 能 疑惑 为 什么 不 把 
代价 函数 也 看 作 关于 了 的 函数 。 记 住 ， 输入 的 训练 样本 x 是 固定 的 ， 所 以 输出 了 也 是 固定 参数 ， 
尤其 无 法 通过 随意 改变 权重 和 偏 置 来 改变 它 ， 即 这 不 是 神经 网 络 学 习 的 对 象 。 所 以 , 把 C 看 成 仅 
有 输出 激活 值 a 的 函数 才 是 合理 的 , y 仅 是 协助 定义 函数 的 参数 。 
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2.3 ”阿达 马 积 st 


反 向 传播 算法 基于 常规 的 线性 代数 运算 ， 比 如 向 量 加 法 、 向 量 和 矩阵 乘法 等 , 但 是 有 一 个 运算 
不 太 常用 。 假设 s 和 + 是 两 个 维度 相同 的 向 量 , 那么 *Ot 表 示 按 元 素 的 乘积 。 所 以 sO©t 的 元 素 就 


是 (sO7),=sjt; ， 举 例如 下 : 
四 下 | 
2 4| |2*4| |8 


这 种 按 元 素 相 乘 有 时 称 作 阿 达 马 积 或 舒 尔 积 , 本 书 采用 前 者 。 优 秀 的 矩阵 库 通 常会 提供 阿达 
马 积 的 快速 实现 ， 在 实现 反 向 传播 时 易于 使 用 。 


2.4 反 向 传播 的 4 个 基本 方程 

其 实 反 向 传播 考量 的 是 如 何 更 改 权重 和 偏 置 以 控制 代价 函数 ， 其 终极 含义 就 是 计算 偏 导数 
6C /16wi, 和 6C/6b'。 为 了 计算 这 些 值 , 首先 需要 引入 中 间 量 8! ， 它 是 第 / 层 第 7 个 神经 元 上 的 误 
差 。 反 向 传播 将 给 出 计算 误差 8! 的 流程 ， 然 后 将 其 与 6C16w, 和 6C/16b/ 联系 起 来 。 





















































为 了 说 明 误差 是 如 何 定义 的 ,设想 神经 网 络 中 有 个 捣乱 的 家 伙 ， 如 图 2-4 所 示 。 


第 1 层 第 j 个 神经 元 





SC 
a 











图 。 2-4 

这 个 家 伙 在 第 1 层 的 第 7 个 神经 元 上 。 当 输入 进来 时 ， 它 会 扰乱 神经 元 的 操作 。 它 会 在 神经 
元 的 带 权 输入 上 增加 很 小 的 变化 42/ ， 使 得 神经 元 输出 由 a(2)) 变 成 ol(2, 十 42)) 。 这 个 变化 会 向 
后 面 的 层 传播 ， 最 终 导致 整个 代价 发 生 6C / 6z/4z/ 的 改变 。 

















现在 , 这 个 家 伙 变 好 了 , 想 帮忙 优化 代价 函数 , 它 试 着 寻找 能 让 代价 更 小 的 4z; ,假设 0C /6z/ 
有 一 个 很 大 的 值 (或 正 或 负 )。 这 个 家 伙 可 以 通过 选择 跟 6C /6z' 符 号 相反 的 4z 来 缩小 代价 。 如 
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果 aC/16z' 接 近 0， 那 么 它 并 不 能 通过 扰动 带 权 输入 了 来 缩小 太 多 代价 。 对 它 而 言 ， 这 时 神经 元 
已 经 很 接近 最 优 了 9"。 这 里 可 以 得 出 具有 启发 性 的 认识 一 “8Cy76z' 是 对 神经 元 误差 的 度量 。 按照 
前 面 的 描述 ， 把 第 7 层 第 7 个 神经 元 上 的 误差 以 定义 为 : 



























































We 
oO 总 Oz (29) 
按照 惯例 , 用 9 表示 与 第 1 层 相 关 的 误差 向 量 。 可 以 利用 反 向 传播 计算 每 一 层 的 56', 然后 将 


这 些 误差 与 实际 需要 的 量 6C/16w, 和 6C/6b' 关联 起 来 。 





你 可 能 想 知 道 这 个 家 伙 为 何 改变 带 权 输入 z, 。 把 它 想象 成 改变 输出 激活 值 w 肯定 更 自然 ， 
这 样 就 可 以 使 用 6C /6z' 度 量 误差 了 。 这 样 做 的 话 ， 其 实 和 下 面 要 讨论 的 差不多 ， 但 前 面 的 方法 
会 让 反 向 传播 在 代数 运算 上 变 得 比较 复杂 ， 所 以 这 里 使 用 56; = 6C /6z; 作为 对 误差 的 度量 ”。 








解决 方案 : 反 向 传播 基于 4 个 基本 方程 , 利用 它们 可 以 计算 误差 5 和 代价 函数 的 梯度 。 下 面 
列 出 这 4 个 方程 ， 但 请 注意 ， 你 不 需要 立刻 理解 这 些 方程 。 实 际 上 ， 反 向 传播 方程 的 内 容 很 多 ， 
完全 理解 相当 需要 时 间 和 耐心 。 当 然 , 这 样 的 付出 有 着 巨大 的 回报 。 因 此 ， 对 这 些 内 容 的 讨论 仅 
仪 是 正确 掌握 这 些 方程 的 开始 。 























探讨 这 些 方 程 的 流程 如 下 : 首先 给 出 这 些 方程 的 简短 证 明 , 然后 以 伪 代 码 的 方式 给 出 这 些 方 
程 的 算法 表示 ， 并 展示 如 何 将 这 些 伪 代 码 转化 成 可 执行 的 Python 代码 。 本 章 最 后 将 直观 展现 反 
向 传播 方程 的 含义 ， 以 及 如 何 从 零 开 始 认识 这 个 规律 。 根 据 该 方法 ,我 们 会 经 常 提 及 这 4 个 基本 
方程 。 随 着 理解 的 加 深 ， 这 些 方 程 看 起 来 会 更 合理 、 更 美妙 、 更 自然 。 

















关于 输出 层 误 差 的 方程 ， 6 分 量 表示 为 : 


oC 
和 Oa’ 


J 





o'(z!) (BP1) 


这 个 表达 式 非常 自然 。 右 边 第 一 项 3C /Ga 表示 代价 随 第 j 个 输出 激活 值 的 变化 而 变化 的 速 
度 。 假 如 C 不 太 依赖 特定 的 输出 神经 元 ; ， 那 么 5 就 会 很 小 ， 这 也 是 我 们 想 要 的 效果 。 右 边 第 
二 项 oi(z/) 描 述 了 激活 函数 o 在 z/ 处 的 变化 速度 。 



























































Qz 这 里 需要 注意 的 是 ， 只 有 在 4z 很 小 时 才 满 足 ， 需 要 假设 这 个 家 伙 只 能 进行 微调 。 
@ 在 分 类 问题 中 ,误差 有 时 会 用 作 分 类 的 错误 率 。 如 果 神 经 网 络 分 类 的 正确 率 为 96.0%， 那么 其 误差 就 是 4.0%。 显 
然 ， 这 和 前 面 提 到 的 误差 相差 较 大 。 在 实际 应 用 中 ， 这 两 种 含义 易于 区 分 。 
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值得 注意 的 是 ,方程 (BP1) 中 的 每 个 部 分 都 很 好 计算 。 具 体 地 说 ， 在 计算 神经 网 络 行为 时 计 
算 zy ， 仅 需 一 点 点 额外 工作 就 可 以 计算 c'(z7) 。 当 然 ，6C/6a’ 取决 于 代价 函数 的 形式 。 然 而 ,给 
定 代价 函数 , 计算 6C/6a; 就 没有 什么 大 问题 了 。 如 果 使 用 二 次 代价 函数 , 那么 C= > ,07 -a))”， 
所 以 6C/16a = (of --y,) ， 显 然 很 容易 计算 。 

















对 5" 来 说 , 方程 (BP1) 是 个 分 量 形式 的 表达 式 。 这 个 表达 式 非常 好 ,但 不 是 理想 形式 ( 我 们 
希望 用 矩阵 表示 )。 以 和 矩阵 形式 重 写 方程 其 实 很 简单 : 





6:=V,C ©o'(z’) (BP1a) 


其 中 的 V,C 定义 为 一 个 向 量 ， 其 分 量 是 偏 导数 6C/6a; 。 可 以 把 V,C 看 作 C 关于 输出 激活 值 的 
变化 速度 。 显 然 ， 方程 (BP1) 和 方程 (BP1a) 等 价 ， 所 以 下 面 用 方程 (BP1) 表 示 这 两 个 方程 。 例 如 对 
于 二 次 代价 函数 ， 有 VC = (a -y) ， 所 以 方程 (BP1) 的 整个 矩阵 形式 如 下 : 











6° =(a’ -y) OOo") (30) 





如 上 所 示 ， 该 方程 中 的 每 一 项 都 有 很 好 的 向 量 形式 ， 因 此 便于 使 用 NumPy 或 其 他 矩阵 库 进 
行 计 算 。 





使 用 下 一 层 的 误差 5” 来 表示 当前 层 的 误差 6 ， 有 : 


6! 宇 (Oo 全 6") © az (BP2) 











其 中 (w*')" 是 第 (+1) 层 权重 矩阵 w"* 的 转 置 。 该 方程 看 上 去 有 些 复杂 , 但 每 个 组 成 元 素 都 解释 得 
通 。 假 设 我 们 知道 第 (1+1) 层 的 误差 56” ， 当 应 用 转 蜀 的 权重 矩阵 (w”*)" 时 ,可 以 凭 直觉 把 它 看 作 
在 沿 着 神经 网 络 反 向 移动 误差 ,以 此 度量 第 ! 层 输出 的 误差 ; 然后 计算 阿达 马 积 © o"(z') ,这 会 让 
误差 通过 第 1 层 的 激活 函数 反 向 传播 回来 并 给 出 第 1 层 的 带 权 输入 的 误差 6 。 















































通过 组 合 (BP1) 和 (BP2)， 可 以 计算 任何 层 的 误差 6'。 首 先 使 用 方程 (BP1) 计 算 5 ， 然 后 使 用 
方程 (BP2) 计 算 6“ ,接着 再 次 用 方程 (BP2) 计 算 5 ,如 此 一 步 一 步 地 在 神经 网 络 中 反 向 传播 。 








对 于 神经 网 络 中 的 任意 偏 置 ， 代 价 函 数 的 变化 率 如 下 : 


6C 
ey (BP3) 





也 就 是 说 ,误差 6 和 变化 率 6C/6b; 完全 一 致 。 该 性 质 很 棒 ， 由 于 (BP1) 和 (BP2) 给 出 了 计算 56, 的 
方式 ， 因 此 可 以 将 (BP3) 简 写 为 : 
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oC 
ee 31 
GD) 

















其 中 5 和 偏 置 b 都 是 针对 同一 个 神经 元 的 。 
对 于 神经 网 络 中 的 任意 权重 ， 代 价 函 数 的 变化 率 如 下 : 





2 "18! (BP4) 











由 此 可 以 计算 偏 导数 6C/6wi, ,其 中 6 和 这些 量 的 计算 方式 已 经 给 出 ,因此 可 以 用 更 少 的 下 
标 重 写 方程 ， 如 下 所 示 : 
< O (32) 


其 中 au 是 输入 到 权重 w 的 神经 元 的 激活 值 ，6,,, 是 权重 w 输出 的 神经 元 的 误差 。 仔细 看 看 权重 w ， 
还 有 与 之 相连 的 两 个 神经 元 ， 如 图 2-5 所 示 。 








图 2-5 








方程 (32) 的 一 个 优点 是 ， 如 果 激 活 值 mm 很 小 , 即 ~ 0 ,那么 梯度 6C /6Ow 的 值 也 会 很 小 。 
这 意味 着 权重 学 习 绥 慢 ， 受 梯度 下 降 的 影响 不 大 。 换 言 之 ,方程 (BP4) 的 一 个 结果 就 是 小 激活 值 
神经 元 的 权重 学 习 会 非常 缓慢 。 


以 上 4 个 基本 方程 还 有 其 他 地 方 值得 研究 。 下面 从 输出 层 开始 , 先 看 看 (BP1) 中 的 项 oa'(zy) 。 
回顾 一 下 sigmoid 函数 的 图 像 〈 详 见 第 1 章 )， 当 c(z7) 近似 为 0 或 1 时 ，sigmoid 函数 变 得 非常 平 
缓 , 这 时 o'(z7)x0。 因此, 如 果 输 出 神经 元 处 于 小 激活 值 ( 约 为 0 ) 或 者 大 激活 值 ( 约 为 1 ) 时 ， 
最 终 层 的 权重 学 习 会 非常 缓慢 。 这 时 可 以 说 输出 神经 元 已 经 饱和 了 ,并且 , 权重 学 习 也 会 终止 (或 
者 学 习 非 常 缓慢 )， 输 出 神经 元 的 偏 置 也 与 之 类 似 。 






































前 面 的 层 也 有 类 似 的 特点 ， 尤 其 注意 (BP2) 中 的 项 o'(z') ， 这 表示 如 果 神 经 元 已 经 接近 饱和 ， 
那么 5; 很 可 能 变 小 。 这 就 导致 输入 到 已 饱和 神经 元 的 任何 权重 都 学 习 绥 慢 ”。 


























@ 如 果 (o)7675 足够 大 ， 能够 弥补 a'(z') 的 话 ， 这 里 的 推导 就 不 成 立 了 ,但 上 面 是 常见 的 情形 。 
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总 结 一 下 ,前 面 讲 到 ， 如 果 输 入 神经 元 激活 值 很 小 , 或 者 输出 神经 元 已 经 饱和 ， 权 重 学 习 会 
很 缓慢 。 

















这 些 观 测 并 不 出 乎 意料 ,它们 有 助 于 完善 神经 网 络 学 习 背 后 的 思维 模型 而且, 这 种 推 其 方 
式 可 以 挪用 他 处 。4 个 基本 方程 其 实 对 任何 激活 函数 都 是 成 立 的 ( 稍 后 将 证 明 ， 推 断 本 身 与 任何 
具体 的 代价 函数 无 关 )， 因 此 可 以 使 用 这 些 方程 来 设计 有 特定 学 习 属 性 的 激活 函数 。 例 如 我 们 准 
备 找 一 个 非 sigmoid 激活 函数 c ,使 得 o' 总 为 正 ， 而 且 不 会 趋 近 0。 这 可 以 避免 原始 的 sigmoid 
经 元 饱和 时 学 习 速 度 下 降 的 问题 。 后 文 会 探讨 对 激活 函数 的 这 类 修改 。 牢 记 这 4 个 基本 方程 ( 见 
2-6 ) 有 助 于 了 解 为 何 进行 某 些 尝 试 ， 以 及 这 些 沦 试 的 影响 。 















































全 























总 结 : 反 向 传播 方程 
6’=VY,COo'(z) (BP1) 
6'=((w") 6")Oo'z) (BP2) 
=9 (BP3) 
=a06/ (BP4) 
图 2-6 
问 题 


口 反 向 传播 方程 的 另 一 种 表示 方式 : 前 面 给 出 了 使 用 阿达 马 积 的 反 向 传播 方程 ， 尤 其 是 (BP1) 





和 (BP2)。 如 果 你 对 这 种 特殊 的 乘积 不 熟悉 ， 可 能 会 有 一 些 困惑 。 还 有 一 种 表示 方式 一 一 基 
于 传统 的 矩阵 乘法 ， 菜 些 读 者 可 以 从 中 获得 启发 。 
(1) 证 明 (BP1) 可 以 写成 : 

6 =>(z')Y,C (33) 


其 中 '(z“) 是 一 个 方 阵 ， 其 对 角 线 的 元 素 是 a'(z7) ， 其 他 的 元 素 均 为 0。 注意， 该 矩阵 通 
过 一 般 的 珑 阵 乘法 作用 于 VC 。 


(2) 证 明 (BP2) 可 以 写成 : 


2 3'(z Cw) BO (34) 
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(3) 结合 (1) 和 (2) 证 明 : 
6 =2(z Oo ) (ee (Ww) Zz C G5) 


如 果 习 惯 于 这 种 形式 的 矩阵 乘法 ,会 发 现 (BP1) 和 (BP2) 更 容易 理解 。 本 书 坚持 使 用 阿达 马 积 
的 原因 是 其 实现 起 来 更 快 。 
2.5 基本 方程 的 证 明 〈 选 学 ) 


下 面 证 明 4 个 基本 方程 。 它 们 是 多 元 微 积分 链 式 法 则 的 推论 。 如 果 你 熟悉 链 式 法 则 ， 建 议 自 
己 移 尝试 推导 。 








从 方程 (BP1) 开 始 证 明 ， 它 是 输出 误差 6” 的 表达 式 。 为 了 证 明 该 方程 ， 首 先 回顾 定义 : 





_6c 











汪 (0) 
应 用 链 式 法 则 ， 可 以 用 输出 激活 值 的 偏 导数 的 形式 重 写 以 上 偏 导数 : 
1 uOC Oa 
-Yaa 地 


其 中 求 和 是 对 输出 层 的 所 有 神经 元 进行 的 。 当 然 , 第 个 神经 元 的 输出 激活 值 at 只 取决 于 k= / 
时 第 7 个 神经 元 的 输入 权重 z/ ,所 以 当 k#j 时 6qt /6z! 不 存在 ,因此 可 以 把 上 一 个 方程 简化 为 : 


























OC Oa’ 
Or= 一 一 38 
7 Oa’ O27 me) 
基于 at =o(z!) ， 右 边 第 2 项 可 以 写成 (zt) ,方程 变 为 : 
总 去 az) (39) 


用 


这 正 是 (BP1) 的 分 量 形式 。 





接着 证 明 (BP2)， 它 以 下 一 层 误差 6" 的 形式 表示 误差 6' 。 为 此 ， 用 61" =6C /6z*' 重 写 
6; =0C/6z;。 可 以 用 链 式 法 则 实现 。 
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oC 











有 40 
1 (40) 
四 了 OC Oz i 
T Oz Gz, ( ) 
Oz 
en (42) 
k 了 











最 后 一 行 交换 了 右边 的 两 项 ， 并 代入 了 5 入 的 定义 。 为 了 对 最 后 一 行 的 第 一 项 求 值 ， 注 意 : 





2z = WATD = > wo(z)+b" (43) 
7 7 
对 其 求 微分 可 得 
Oz + 
0) (44) 
将 其 代入 (42) 可 得 : 
56! = > wi'6r" oo"(z) (45) 

















这 正 是 (BP2) 的 分 量 形式 。 





最 后 需要 证 明 方程 (BP3) 和 方程 (BP4)。 它 们 同样 遵循 链 式 法 则 ， 因 此 和 前 两 个 方程 的 证 明 方 
法 相似 ， 这 里 把 它们 留 作 练习 。 








练 习 


证 明 方程 (BP3) 和 方程 (BP4)。 


反 向 传播 基本 方程 的 证 明 看 起 来 复杂 , 实际 上 恰当 应 用 链 式 法 则 即 可 实现 。 可 以 将 反 向 传播 
看 作 系 统 性 地 应 用 多 元 微 积分 中 的 链 式 法 则 来 计算 代价 函数 梯度 的 一 种 方式 ,介绍 完了 反 向 传播 
的 理论 ， 下 面 讨论 实现 细节 。 


2.6 反 向 传播 算法 
利用 反 向 传播 方程 可 以 计算 代价 函数 的 梯度 ， 用 算法 显 式 表达 如 下 。 











52 第 2 章 反 向 传播 算法 工作 原理 





(1) 输入 x : 为 输入 层 设置 对 应 的 激活 值 w 。 

(2) 前 向 传播 : 对 每 个 ! = 2,3,…, 克 计算 相应 的 z = wa 一 + 天 和 w =o(z')。 

(3) 输出 层 误差 6": 计算 向 量 62 =V,C Or'(z5) 。 

(4) 反 向 误差 传播 : 对 每 个 ! = 工 -1 工 -2,…,2 ， 计 算 5 = (Oo50T7650 © o'(z')。 
(5) 输出 : 代价 函数 的 梯度 由 6C/6wi, = af6! 和 68C/162; = 6; 得 出 。 























分 析 该 算法 , 可 以 看 出 为 何 将 它 称 作 “ 反 向 传播 ”一 一 从 最 后 一 层 开始 向 后 计算 误差 向 量 5' 。 
这 看 似 有 点 奇怪 , 为 何 要 从 后 面 开始 ?仔细 思考 反 向 传播 方程 的 证 明 , 就 能 明白 这 种 反 向 移动 其 
实 是 由 于 代价 函数 是 神经 网 络 输 出 的 函数 。 为 了 理解 代价 随 前 面 层 的 权重 和 偏 置 变化 的 规律 , 需 
要 重复 运用 链 式 法 则 ， 反 向 获取 需要 的 表达 式 。 
































练 习 
口 修改 后 的 单个 神经 元 的 反 向 传播 
假设 改变 一 个 前 馈 神 经 网 络 中 的 单个 神经 元 , 令 其 输出 为 (wjx) +Db) ,其 中 了 是 跟 sigmoid 
函 数 不 同 的 某 个 函数 ， 如 何 修改 反 向 传播 算法 呢 ? 
口 线性 神经 元 上 的 反 向 传播 
假设 将 非 线性 神经 元 的 sigmoid 函数 替换 为 ac(z2) =z ， 请 重 写 反 向 传播 算法 。 


如 前 所 述 , 反 向 传播 算法 对 单独 的 训练 样本 计算 代价 函数 的 梯度 ，C = C., 。 实践 中 通常 将 反 
向 传播 算法 和 学 习 算法 ( 例如 随机 梯度 下 降 算法 ) 组 合 起 来 使 用 , 会 对 许多 训练 样本 计算 对 应 的 
梯度 。 例 如 给 定 大 小 为 m 的 小 批量 样本 ， 如 下 算法 对 该 样本 应 用 梯度 下 降 学 习 。 


(1) 输入 训练 样本 的 集合 。 
(2) 对 每 个 训练 样本 x ， 设 置 对 应 的 输入 激活 值 汪 ， 并 执行 以 下 步 又 。 





























口 前 向 传播 : 对 每 个 = 2,3,… 汪 计算 z = mar + 有 和 ea =0o(z™)。 
DD 输出 误差 6™ 5 计算 向 量 6™ i VC, © o'(z™:) , 
口 反 向 传播 误差 : 对 每 个 ! = 区 一元 一 2…,2 计算 6*™' = ((w1)T 6™") © o'(2™) 








(3) 梯度 下 降 : 对 每 个 = 到 工 -1 …,2 ,根据 w' >w' 一 了 6a™)" 和 b' 下 b' -了 > 6 
m - m 
更 新 权重 和 偏 置 


当然 ,在 实践 中 实现 随机 梯度 下 降 ， 还 需要 一 个 循环 来 生成 小 批量 训练 样本 ,以 及 多 轮 外 循 
环 。 简 单 起 见 ， 这 里 暂 不 讨论 。 
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2.7 反 向 传播 代码 


介绍 完了 抽象 的 反 向 传播 理论 ， 下 面 分 析 反 向 传播 的 实现 代码 。 回 顾 第 1 章 的 代码 ， 需 要 研 
究 Network 类 中 的 update_mini batch 方法 和 backprop 方 法。 这 些 方法 的 代码 其 实 是 前 面 所 讲 算 
法 的 翻版 。 其 中 update_mini_batch 方法 通过 为 当前 mini_batch 中 的 训练 样本 计算 梯度 来 更 新 
Network 的 权重 和 偏 置 。 





class Network(object): 





def update mini batch(self, mini batch, eta): 
""" 对 一 个 小 批量 样本 应 用 梯度 下 降 算 法 和 反 向 传播 算法 来 更 新 神经 网 络 的 权重 和 偏 置 。mini_batch 
是 由 若干 元 组 (X，y) 组 成 的 列表 ，eta 是 学 习 举 。""" 
nabla b = [np.zeros(b.shape) for b in self.biases] 
nabla w = [np.zeros(w.shape) for w in self.weights] 
for x, y in mini batch: 
delta nabla b, delta nabla w = self.backprop(x, y) 
nabla b = [np+dnb for nb, dnb :in zip(nabla b, delta nabla b)] 
nabla w = [nw+dnw for nw, dnw in zip(nabla w, delta nabla w)] 
self.weights = [w-(eta/len(mini batch))*nw 
for w, nw in zip(self.weights, nabla w)] 
self.biases = [b-(eta/len(mini batch))*nb 
for b, nb in zip(self.biases, nabla b)] 


























主要 工作 其 实 是 由 delta nabla b，delta nabla w = self.backprop(x，y) 完 成 的 ， 它 调用 
backprop 方法 计算 偏 导数 BC./60% 和 6C, /6w', 。backprop 方法 跟前 面 的 算法 基本 一 致 ， 只 有 

处 小 的 差异 一 一 用 一 个 略微 不 同 的 方式 来 索引 神经 网 络 层 。 这 个 改变 其 实 是 为 了 利用 Python 的 特 
性 : 使 用 负 值 索引 从 列表 的 最 后 往 前 遍历 ， 例 如 1[-3] 其 实 是 列表 中 的 倒数 第 3 个 元 素 。 下 面 的 
backprop 代码 和 一 些 辅助 函数 共同 用 于 计算 o 、 导 数 o' 以 及 代价 函数 的 导数 。 理 解 了 这 些 ， 就 能 
掌握 所 有 代码 了 。 如 果 对 某 些 地 方 感到 困惑 ， 可 以 参考 代码 的 原始 描述 及 完整 清单 ， 详 见 1.6 节 。 









































class Network(object): 


def backprop(self, x, y): 
""" 返 回 一 个 表示 代价 水 数 C_X 梯度 的 元 组 (nabla b，nabla w)。nabla b 和 nabla w 是 一 层 接 一 层 的 
numpy 数组 的 列表 ， 类 似 于 self.biases 和 self.weights。""" 
nabla b = [np.zeros(b.shape) for b in self.biases] 
nabla w = [np.zeros(w.shape) for w in self.weights] 
# 前 馈 
activation = x 
activations = [x] # 一 层 接 一 层 地 存放 所 有 激活 值 
zs = [] # 一 层 接 一 层 地 存放 所 有 Z 向 量 
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for b, w in zip(self.biases, self.weights): 
z = np.dot(w, activation)+b 
zs.append(z) 
activation = sigmoid(z) 
activations.append(activation) 

# 反 向 传播 


delta = self.cost derivative(activations[-1], y) * \ 





sigmoid prime(zs[-1]) 
nabla b[-1] = delta 
nabla w[-1] = np.dot(delta, activations[-2].transpose()) 
"”" 注 意 ， 下 面 循 环 中 的 变量 和 书 中 的 形式 销 有 不 同 。 这 里 1 = 1 表示 最 后 一 层 神 经 元 ，1 = 2 则 表示 
倒数 第 二 层 ， 以 此 类 推 。 这 是 对 书 中 方式 的 重 编号 ， 旨 在 利用 Python 列表 的 负 索 引 功 能 。 "”” 
for 1 in xrange(2, self.num layers): 

z = zs[-1] 

sp = sigmoid prime(z) 

delta = np.dot(self.weights[-1+1].transpose()，delta) * sp 

nabla b[-1] = delta 

nabla w[-1] = np.dot(delta, activations[-1-1].transpose()) 
return (nabla b, nabla w) 








def cost derivative(self, output activations, y): 
""" 返 回 关 于 输出 激活 值 的 偏 导 数 的 向 量 。""" 
return (output activations-y) 


def sigmoid(z): 
"cigmoid 函数 """ 


return 1.0/(1.0+np.exp(-z)) 


def sigmoid prime(z): 
"""sigmoid 函数 的 导数 ”” 
return sigmoid(z)*(1-sigmoid(z)) 


问 题 
口 全 珑 阵 方法 : 针对 小 批量 样本 的 反 向 传播 
随机 梯度 下 降 的 实现 是 对 小 批量 数据 中 的 训练 样本 进行 遍历 ， 因 此 也 可 以 更 改 反 向 传播 算 
法 ， 让 它 对 小 批量 数据 中 的 所 有 样本 计算 梯度 。 也 就 是 说 ， 可 以 用 一 个 矩阵 写 = [XX ,…,X,,]， 
其 中 每 列 就 是 小 批量 数据 中 的 向 量 ， 而 不 是 单个 输入 向 量 x 。 通 过 夹 以 权重 和 矩阵， 加 上 对 应 
的 偏 置 进行 前 向 传播 ， 对 各 处 应 用 sigmoid 函数 ， 然 后 通过 类 似 的 过 程 进 行 反 向 传播 。 请 显 
式 写 出 这 种 方法 的 伪 代 码 , 更 改 network.py 来 实现 该 方案 。 这 样 做 的 好 处 是 利用 了 现代 线性 


邮 
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代数 库 ， 所 以 会 比 在 小 批量 数据 上 进行 遍历 运行 得 更 快 。( 在 我 的 计算 机 上 ， 对 于 MNIST 
分 类 问题 ， 相 较 于 第 1 章 的 实现 ,速度 提升 了 1/2。) 在 实际 应 用 中 ,所 有 可 靠 的 用 于 实现 反 
向 传播 的 库 都 用 了 类 似 的 基于 纸 阵 的 方法 或 其 变 体 。 


2.8 就 何 而 言 ， 反 向 传播 算 快 


就 何 而 言 , 反 向 传播 是 一 个 快速 的 算法 呢 ? 为 了 回答 这 个 问题 , 首先 考虑 计算 梯度 的 另 一 种 
方法 。 假 设 回 到 20 世纪 五 六 十 年 代 的 神经 网 络 研究 ， 而 且 你 是 世界 上 首 个 考虑 使 用 梯度 下 降 算 
法 进行 学 习 的 研究 人 员 。 为 了 实现 想法 ,必须 找 出 计算 代价 函数 梯度 的 方法 。 想 到 学 过 的 微 积分 ， 
你 决定 用 链 式 法 则 来 计算 梯度 ,但 尝试 后 发 现代 数 式 看 起 来 非常 复杂 ,于 是 想 改 用 其 他 方法 。 你 
决定 仅仅 把 代价 看 作 权重 的 函数 C=C(w) ( 稍 后 会 讲 到 偏 置 ) 你 给 这 些 权重 编 了 号 : wi,w,…， 
想 计算 关于 权重 w 的 偏 导数 0C /0w, 。 一 种 显而易见 的 方法 是 近似 ， 如 下 所 示 : 











oC Clw+ee,;)—C(w) 





(46) 


Ow, € 



































其 中 ec> 0 ， 是 一 个 很 小 的 正 数 ，e, 是 第 j 个 方向 上 的 单位 向 量 。 换 言 之 ， 可 以 通过 计算 两 个 接 
近 相 同 w, 值 的 代价 C 来 估计 6C /6w,， 然 后 应 用 方程 (46)。 也 可 以 用 同样 的 方法 计算 与 偏 置 相关 
的 偏 导数 6C/ 6b 。 


该 方法 看 起 来 可 行 性 强 ， 概念 简单 ,， 用 几 行 代码 即 可 实现 。 这 样 的 方法 似乎 比 使 用 链 式 法 则 
计算 梯度 更 高 效 。 














然而 实现 之 后 会 发 现 该 方法 非常 缓慢 。 为 了 理解 原因 , 想象 神经 网 络 中 有 1 000 000 个 权重 ， 
对 于 每 个 权重 w ,需要 通过 计算 C(w+ ce,) 来 求 9C /0w, 。 这 意味 着 为 了 计算 梯度 ， 需 要 计算 代 
价 函 数 1 000 000 次, 需要 ( 对 每 个 样本 ) 进行 1 000 000 次 前 向 传播 。 此 外 还 要 计算 C(w) ， 因 
此 总 共 需 要 进行 1 000 001 次 传播 。 


























反 向 传播 的 优势 是 仅 需要 一 次 前 向 传播 和 一 次 反 向 传播 ， 就 能 计算 出 所 有 偏 导数 6C/16w， 。 
笼统 地 说 ， 反 向 传播 的 计算 代价 和 前 向 传播 的 相同 “， 所 以 反 向 传播 总 的 计算 代价 大 约 是 前 向 传 
播 的 两 倍 。 比 起 直接 计算 导数 ， 反 向 传播 显然 更 有 优势 。 尽 管 反 向 传播 看 似 比方 程 (46) 更 复杂 ， 
但 实际 上 更 快 。 

















这 个 说 法 是 合理 的 ,但 需要 额外 的 说 明 来 明晰 这 一 事实 。 在 前 向 传播 过 程 中 ， 主 要 的 计算 代价 产生 于 权重 矩阵 的 
乘法 ， 反 向 传播 则 是 计算 权重 矩阵 的 转 置 矩阵 。 这 些 操 作 的 计算 代价 显然 是 相近 的 。 
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1986 年， 这 个 加 速算 法 首次 被 人 们 接受 ， 它 扩展 了 神经 网 络 的 适用 范围 ， 众 多 研究 人 员 投 入 
到 神经 网 络 的 研究 中 。 当 然 ， 反 向 传播 并 不 是 万 能 的 。 在 20 世纪 80 年 代 后 期 ， 人 们 尝试 挑战 极 
限 , 尤其 是 尝试 使 用 反 向 传播 来 训练 深度 神经 网 络 。 后 文 会 讲 到 ,现代 计算 机 和 一 些 新 想法 使 得 
反 向 传播 能 够 成 功 训练 深度 神经 网 络 了 。 


2.9 反 向 传播 : 全 局 观 


如 前 所 述 , 反 向 传播 引出 了 两 类 问题 。 第 一 类 问题 是 : 这 个 算法 实际 上 在 做 什么 ”前 面 描述 
了 输出 的 误差 被 反 向 传 回 的 过 程 , 但 能 否 更 深入 一 些 , 更 直观 地 解释 这 些 和 矩阵 和 向 量 乘法 ? 第 二 
类 问题 是 : 为 什么 有 人 提出 了 反 向 传播 ? 按 步 又 实现 算法 甚至 理解 了 算法 的 运行 原理 并 不 意味 着 
你 对 这 个 问题 的 理解 到 了 能 够 提出 算法 的 程度 ， 是 否 有 一 个 推理 思路 能 指引 你 发 现 反 向 传播 算法 ? 
下 面 探讨 这 两 类 问题 。 































































































为 了 说 明 算 法 究 竞 在 做 什么 ,假设 我 们 已 经 对 神经 网 络 中 的 一 些 权 重 做 了 一 点 小 小 的 变动 
4 ， 如 图 2-7 所 示 。 




















图 2-7 
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然后 ， 下 一 层 的 所 有 激活 值 会 随 之 改变 ， 如 图 2-9 所 示 。 

















这 样 代价 的 变化 4C 和 权重 的 变化 4w 就 能 关联 起 来 了 : 


We 





4C = Aw, 47 
OW, jk ( ) 
这 给 出 了 一 种 计算 8C /6wi 的 方法 : 关注 wi 的 微小 变化 如 何 影响 C 。 如 果 能 做 到 这 点 ， 能 





够 精确 地 使 用 易于 计算 的 量 来 表达 每 种 关系 ， 就 能 计算 6C /16w 了 。 


下 面 尝试 一 下 这 个 方法 。4wi 导致 第 1 层 第 j 个 神经 元 的 激活 值 发 生 小 的 变化 4a; ,方程 
如 下 : 


Aa’ s —t Awi (48) 


4a' 的 变化 将 导致 下 一 层 的 所 有 激活 值 发 生变 化 。 我们 聚焦 于 其 中 一 个 激活 值 看 看 影响 , 例 
如 a"， 如 图 2-11 所 示 。 
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Mas la (49) 


将 其 代入 方程 (48)， 可 得 : 





1+1 Oa” Oa, 7 
Ma, ~ AWn (50) 
Oa;, 6 


当然 ,变化 Aa 又 会 影响 下 一 层 的 激活 值 。 实际 上 ,可 以 想象 一 条 从 wi 到 C 的 路 径 , 其 中 


每 个 激活 值 的 变化 都 会 导致 下 一 层 的 激活 值 发 生变 化 , 最 终 导致 输出 的 代价 发 生变 化 。 假设 激活 
值 的 序列 为 四 ,aa 和 ,ax ， 那 么 表达 式 为 : 


ba: Oa’: 6a”! Oa’ 
OC Un 0 9 和 Awi (51) 


AC A 
Ga’ Oa”™ Oa Oa’ Ow 








对 经 过 的 每 个 神经 元 采用 64a /6a 这 种 形式 的 项 , 输出 层 则 为 6C /6ax 。 这 表示 C 的 改变 是 由 
于 神经 网 络 中 这 条 特定 路 径 上 激活 值 发 生变 化 。 当 然 ， 神 经 网 络 中 存在 很 多 路 径 ，wi 可 以 经 其 
传播 而 影响 代价 函数 , 这 里 只 分 析 其 中 一 条 。 为 了 计算 C 的 总 变化 , 需要 对 权重 和 最 终 代 价 之 间 
所 有 可 能 的 路 径 进行 求 和 : 








6C oa: Ga Oa Oa, 二 配 
L L-l 工 -2“ 7 1 天 
6av Oa Oa 60 Ow 





4AC~ > 


mnp***q 


这 是 对 路 径 中 所 有 可 能 的 中 间 神 经 元 选择 进行 求 和 。 对 比方 程 (47) 可 知 : 

















k L-1 7+1 I 
OC _ > OC Oa” Oa’ 0 Oa, (53) 
OW wpaoa’ 0a”" 0a” Oa, Ow 























方程 (53) 看 起 来 相当 复杂 ,但 自 有 其 道理 。 我 们 用 该 方程 计算 C 关 于 神经 网 络 中 一 个 权重 的 
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变化 率 。 这 个 方程 表明 ， 两 个 神经 元 之 间 的 连接 其 实 与 一 个 变化 率 因子 相关 联 , 该 因子 只 是 一 个 
神经 元 的 激活 值 相 对 于 其 他 神经 元 的 激活 值 的 偏 导数 。 从 第 一 个 权重 到 第 一 个 神经 元 的 变化 率 因 
子 是 aa / 6wi, 。 路 径 的 变化 率 因子 其 实 是 这 条 路 径 上 众多 因子 的 乘积 ， 而 整体 变化 率 6C / 6wi, 是 
从 初始 权重 到 最 终 输出 的 代价 函数 的 所 有 可 能 路 径 的 变化 率 因 子 之 和 。 针 对 某 一 条 路 径 , 该 过 程 
如 图 2-12 所 示 。 




































































这 里 所 讲 的 其 实 是 一 种 启发 式 论点 , 也 是 一 种 思考 权重 变化 对 神经 网 络 行为 影响 的 方式 。 下 
面 阐述 进一步 研究 该 论点 的 思路 。 可 以 推导 出 方程 (53) 中 所 有 单独 的 偏 导数 的 显 式 表达 式 ， 这 用 
微 积分 即 可 实现 。 之 后 你 就 会 明白 如 何 用 矩阵 运算 对 所 有 可 能 的 情况 求 和 了 。 这 项 工作 比较 单调 ， 
需要 一 此 耐心 ,但 无 须 太 多 深思 。 完 成 这 些 后 ， 就 可 以 尽 可 能 地 简化 了 。 最 后 你 会 发 现 ， 这 其 实 
就 是 在 进行 反 向 传播 ! 因此 ， 可 以 将 反 向 传播 想象 成 对 所 有 可 能 的 路 径 变化 率 求 和 的 一 种 方式 。 
换言之 , 反 向 传播 算法 能 够 巧妙 地 追踪 对 权重 和 偏 置 的 微小 扰动 。 这 些 扰动 会 在 神经 网 络 中 传播 ， 
最 终 到 达 答 出 层 并 影响 代价 函数 。 


本 书 对 此 不 再 深入 探讨 ， 因 为 这 项 工作 比较 无 趣 。 有 兴趣 的 话 可 以 挑战 一 下 。 即 使 不 去 尝试 ， 
以 上 思维 方式 也 能 够 帮助 你 更 好 地 理解 反 向 传播 。 


至 于 反 向 传播 是 如 何 被 发 现 的 ,实际 上 透 过 上 述 方法 ,可 以 发 现 反 向 传播 的 一 种 证 明 。 然 而 ， 
该 证 明 比 前 面 介绍 的 证 明 更 元 长 ， 也 更 复杂 。 那 么 ,前面 那个 简短 ( 却 更 神秘 ) 的 证 明 是 如 何 被 
发 现 的 呢 ? 当 写 出 长 证 明 的 所 有 细节 后 , 你 会 发 现 里 面 其 实 包 含 了 一 些 明显 可 以 改进 的 地 方 , 然 
后 对 其 进行 简化 ,得 到 稍微 简短 的 证 明 , 接着 又 能 发 现 一 些 明显 的 可 简化 之 处 。 经 过 几 次 迭代 证 
明 改进 后 ， 就 能 得 到 最 终 的 简单 却 看 似 奇怪 的 证 明 ”"， 因 为 移 除 了 很 多 构造 的 细节 1 其 实 最 早 的 
证 明 也 并 不 神秘 ， 而 只 是 经 过 了 大 量 简 化 。 








































































































中 需要 一 个 巧妙 的 步 又。 方程 (53) 中 的 中 间 变 量 是 类 似 于 a” 的 激活 值 。 巧妙 之 处 是 改 用 加 权 的 输入 , 例如 用 z" 作 
为 中 间 变 量 。 如 果 没 想到 这 一 点 ， 而 是 继续 使 用 激活 值 w”， 得 到 的 证 明 会 比 本 章 给 出 的 证 明 稍 复杂 些 。 
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高 尔 夫 球员 刚 开 始 学 习 打 高 尔 夫 球 时 , 通常 会 花 很 长 时 间 练 习 挥 杆 。 慢 慢 地 ， 他 们 才 会 在 此 
基础 上 练习 其 他 击 球 方式 ， 学 习 削 球 、 左 曲 球 和 右 曲 球 。 本 章 仍 着 重 介绍 反 向 传播 算法 ， 这 就 是 
我 们 的 “ 挥 杆 基本 功 ” 一 一 神经 网 络 中 大 部 分 工作 、 学 习 和 研究 的 基础 。 本 章 会 讲解 多 种 技术 ， 
用 于 提升 反 向 传播 的 初级 实现 ， 最 终 改 进 神经 网 络 的 学 习 方法 。 


本 章 讨论 的 技术 包括 : 代价 函数 的 更 好 选择 一 一 交叉 人 代 价 函 数 ; 4 种 正则 化 方法 (LI 正则 
化 、L2 正则 化 、Dropout 和 人 为 扩展 训练 数据 )， 这 能 让 神经 网 络 在 训练 集 之 外 的 数据 上 实现 更 
好 的 泛 化 ; 更 好 的 权重 初始 化 方法 ; 帮助 选择 好 的 超 参数 的 启发 式 方法 。 此 外 , 本章 也 会 简单 介 
绍 一 些 其 他 技术 。 各 个 讨论 相对 独立 ， 你 可 以 选择 性 阅读 。 另 外 , 本 章 还 会 给 出 实现 这 些 技术 的 
代码 ， 可 用 于 提高 对 第 1 章 研究 的 分 类 问题 的 表现 。 



































当然 , 本 章 只 会 展现 神经 网 络 技术 的 冰山 一 角 。 我 认为 深入 研究 那些 重要 的 技术 是 入 门 已 有 
技术 的 最 佳 策略 。 掌 握 这 些 关 键 技术 还 有 助 于 预知 神经 网 络 使 用 中 可 能 出 现 的 问题 ,并 在 需要 时 
快速 学 会 其 他 技术 。 


3.1 ”交叉 蚁 代价 函数 


大 多 数 人 不 喜欢 被 他 人 指出 错误 。 我 以 前 刚 学 习 弹 钢琴 不 入 ， 就 在 听众 前 做 了 一 次 首 秀 。 
我 很 紧张 ， 开 始 时 错 将 八 度 音阶 的 曲 段 演奏 得 很 低 。 我 不 知 所 措 ， 因 为 演奏 无 法 继续 下 去 了 ， 
直到 有 人 指出 了 其 中 的 错误 。 我 当时 非常 是 众 。 不 过 ， 尽 管 不 愉快 ， 我 们 却 能 因为 明显 的 错误 
而 快速 地 学 到 正确 的 知识 。 下 次 我 肯定 能 演奏 正确 ! 然而 当 错误 不 明确 的 时 候 ， 学 习 会 变 得 非 
常 缓慢 。 





























我 们 希望 神经 网 络 可 以 从 错误 中 快速 学 习 。 在 实践 中 , 这 种 情况 经 常 出 现 吗 ? 为 了 回答 这 个 
问题 ， 先 看 一 个 小 例子 ， 图 3-1 展示 了 一 个 只 有 一 个 输入 的 神经 元 。 
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图 3-1 

我 们 会 训练 该 神经 元 做 一 件 非 常 简单 的 事 : 将 输入 1 转换 为 0。 当然 ， 这 非常 简单 ， 手 动 找 
到 合适 的 权重 和 偏 置 就 可 以 了 , 不 需要 使 用 什么 学 习 算 法 。 然 而 , 利用 梯度 下 降 算法 来 学 习 权重 
和 偏 置 似乎 很 有 启发 性 。 下 面 看 看 神经 元 如 何 学 习 。 


























为 了 让 这 个 例子 更 明确 ， 首 先 将 权重 和 偏 置 分 别 初 始 化 为 0.6 和 0.9。 这 些 是 开始 学 习 的 惯 
常 选择 ， 并 没有 任何 特殊 的 意义 。 一 开始 神经 元 的 输出 是 0.82， 所 以 离 目 标 输出 0 还 差 得 很 远 。 
观察 图 3-2”， 看 看 神经 元 是 如 何 学 习 让 输出 接近 0 的。 注意 ,这 实际 上 正在 进行 梯度 计算 ， 然 后 
使 用 梯度 更 新 来 更 新 权重 和 偏 置 并 展示 结果 。 设 置 学 习 率 7=0.15 进行 学 习 ， 一 方面 足够 慢 ， 让 
我 们 能 跟随 学 习 的 过 程 ， 另 一 方面 也 保证 了 学 习 时 间 不 会 太 久 ， 几 秒 应 该 就 是 够 了 。 代价 函数 是 
第 1 章 用 到 的 二 次 函数 C， 这 里 也 会 给 出 准确 的 形式 ， 所 以 无 须 回顾 定义 。 


输入 : 0 一 一 一 (和 0.82 
w=+0.60 












































b=+0.90 
代价 
轮 数 
输入 : 0 一 一 (一 0.39 输入 : 0 一 一 (一人 0.21 
w= -0.38 w= -0.81 
b=-0.08 b=-0.51 
代价 代价 
本 轮 数 轮 数 
图 3-2 














在 原 书 网 站 (http:/neuralnetworksanddeeplearning.com/chap3.html ) 上 可 以 看 到 动态 交互 过 程 ， 这 里 做 了 定格 截取 
处 理 ， 以 多 幅 图 像 来 呈现 动态 效果 ， 下 同 。 译 者 注 

















输入 ， 0 一 一 (一 0.11 
w=—1.21 


w= 


0.09 


输入 : 0 一 一 ) 一 和 
w=—1.28 


图 3-2 ( 续 ) 


可 见 神经 元 快速 地 学 到 了 能 使 代价 下 降 的 权重 和 偏 置 , 给 出 了 最 终 的 输出 0.09。 这 虽然 不 是 


目标 输出 , 但 已 经 挺 不 错 了 。 假设 现在 将 初始 的 权重 和 








遍 置 都 设置 为 2.0。 此 时 初始 输出 为 0.98， 


这 和 目标 值 的 差距 相当 大 。 下 面 看 看 神经 元 如 何 学 习 输 出 0， 如 图 3-3 所 示 。 


输入 : 1.0 一 一 人 广 一 人 0.98 
w=+2.00 


代价 


b=+2.00 


轮 数 


输入 : 0 一 一 人 一 0.98 输入 : 0 一 一 人 一 和 0.96 
w=+1.85 w=+1.65 


b=+1.85 
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输入 : 一 一 (一人 0.93 ”输入 : Wr bi: 0.80 
W= 二 1.32 w=+0.66 





b=+1.32 =+0.66 
i 代价 
ED 轮 数 轮 数 
输入 : nu 一 一 ( ) 一 输出 : 0.36 ”输入 : 0 OQ ti: 0.21 
; = -0.29 w=—0.68 
b=-0.29 b=-0.68 
nm 代价 
天 轮 数 可 轮 数 
图 3-3( 续 ) 








这 个 例子 使 用 了 相同 的 学 习 率 (7Y= 0.15 ), 可 以 看 到 刚 开始 学 习 速 度 比较 缓慢 。 在 大 约 前 150 
轮 的 学 习 中 , 权重 和 偏 置 并 没有 发 生 太 大 变化 。 随 后 学 习 速 度 加 快 ， 与 上 一 个 例子 类 似 ， 神 经 网 
络 的 输出 也 迅速 接近 0。 





这 种 行为 看 起 来 和 人 类 的 学 习 行 为 差异 较 大 。 如 前 所 述 ， 我 们 通常 在 明显 犯错 时 学 得 最 快 ， 
但 是 前 面 显示 人 工 神 经 元 在 明显 犯错 的 情况 下 其 实学 习 很 有 难度 , 而 且 这 种 现象 不 仅 在 这 个 小 例 
子 中 出 现 ， 也 会 在 一 般 的 神经 网 络 中 出 现 。 为 何 学 习 如 此 缓慢 ? 有 什么 方法 能 避免 吗 ? 















































为 了 探究 这 两 个 问题 的 根源 , 要 想到 神经 元 是 通过 改变 权重 和 偏 置 , 并 以 代价 函数 的 偏 导数 
(6C/6w 和 6C/6b ) 决定 的 速度 学 习 的 ， 所 以 “学 习 缓 慢 ” 实 际 上 指 偏 导数 很 小 。 这 里 的 挑战 就 是 
分 析 它 们 为 何 这 么 小 。 为 了 理解 这 一 点 , 试 试 计算 偏 导数 。 前 面 一 直 在 用 方程 (6) 表 示 二 次 代价 函 
数 ， 定 义 如 下 : 
































_(y-a) 
C= (54) 

















其 中 a 是 神经 元 的 输出 ， 训 练 输 入 为 x=1, y=0 是 目标 输出 。 使 用 权重 和 偏 置 显 式 表 达 a= 
o(z)， 其 中 z=wx+b。 使 用 链 式 法 则 求 权 重 和 偏 置 的 偏 导数 ， 有 : 














A (55) 
Ow 
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6C 人 
如 = (a—y)o (z)=ao (2) (56) 





其 中 已 经 将 x=1 和 y=0 代 入 了 。 为 了 理解 这 些 表 达 式 的 作用 ,仔细 观察 o'(z) 这 一 项 。 首 先 回顾 
一 下 sigmoid 函数 的 曲线 ， 如 图 3-4 所 示 。 


Sigmoid 国 数 





3 2 0 1 2 3 4 


图 3-4 





图 3-4 显示 当 神 经 元 的 输出 接近 1 时 ， 曲 线 变 得 相当 平缓 ， 所 以 o'(z) 就 很 小 了 。 从 方程 (55) 
和 方程 (56) 可 知 ，6C/6w 和 6C/6b 会 非常 小 , 这 其 实 就 是 学 习 绥 慢 的 原因 。 稍 后 会 讲 到 ， 这 种 学 习 
速度 下 降 的 原因 实际 上 也 是 一 般 的 神经 网 络 学 习 缓 慢 的 原因 ， 并 不 仅仅 是 本 例 特 有 的 。 























3.1.1 引入 交叉 炉 代 价 函 数 


如 何 解 决 这 个 问题 呢 ? 研究 表明 , 可 以 使 用 交叉 炉 代价 函数 来 蔡 换 二 次 代价 函数 。 为 了 理解 
什么 是 交 义 炉 , 我 们 稍微 改变 一 下 之 前 的 简单 例子 。 假设 现在 要 训练 一 个 包含 若干 输入 变量 的 神 
经 元 ,%,… ， 对 应 的 权重 为 wi,w,,… 和 偏 置 %?， 如 图 3-5 所 示 。 
































a = o(z) 








图 3-5 
































ey 


申 经 元 的 输出 就 是 a = o(z) ， 其 中 z= 》 ,wx +5 是 输入 的 带 权 和 ， 定 义 如 下 : 


a | 


ea be (57) 
7 x 
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其 中 是 训练 数据 的 总 数 ， 求 和 是 对 所 有 训练 输入 x 进行 的 ,y 是 对 应 的 目标 输出 。 




















方程 (37) 能 否 解 决 学 习 缓慢 的 问题 并 不 明朗 。 实 际 上 ， 它 甚至 不 是 明显 的 代价 函数 ! 在 解决 
学 习 缓慢 的 问题 前 ， 首 先 思 考 为 何 能 将 交叉 灶 解 释 成 代价 函数 。 





将 交叉 炉 看 作 代 价 函数 有 两 点 原因 。 第 一 ， 它 是 非 负 的 ，C>0。 可 以 看 出 (57) 的 求 和 中 的 所 
有 单独 项 都 是 负数 ， 因 为 对 数 函 数 的 定义 域 是 (0, 1)。 求 和 前 面 有 一 个 负 号 。 








第 二 , 如果 对 于 所 有 的 训练 输入 x, 神经 元 实际 的 输出 都 接近 目标 值 ,那么 交叉 彤 将 接近 0"。 
假设 在 本 例 中 , y=0 而 ax0, 这 是 我 们 想 要 的 结果 。 方程 (57) 中 的 第 一 个 项 会 消去 , 因为 y=0， 
而 第 二 项 实际 上 就 是 -In(1 一 a)0; 反之 , y=1 而 a=1。 所 以 实际 输出 和 目标 输出 之 间 的 差距 越 
小 ， 最 终 交 叉 焙 的 值 就 越 小 。 














综 上 所 述 ， 交 叉 业 是 非 负 的 ， 在 神经 元 达到 较 高 的 正确 率 时 接近 0。 我 们 希望 代价 函数 具备 
这 些 特性 。 其 实 二 次 代价 函数 也 拥有 这 些 特性 ， 所 以 交叉 和 是 很 好 的 选择 。 然 而 交叉 六 代 价 函 数 
有 一 个 比 二 次 代价 函数 更 好 的 特性 : 它 避 免 了 学 习 速 度 下 降 的 问题 。 为 了 弄 清 楚 这 个 情况 ,下面 
计算 交叉 彤 函数 关于 权重 的 偏 导数 。 我 们 将 a= ol(z) 代 入 方程 (57) 中 应 用 两 次 链 式 法 则 ， 得 到 |: 























oC 1 攻 和 (58) 
Ow, n‘s\o(z) 1-o(z))ow, 
__1 = 
!5 让 ed 六 6% 
合并 结果 ， 简 化 得 到 : 
A (60) 





Ow, nT o(z)(l—o(z)) 


根据 o(z)=1/(+e“) 的 定义 和 一 些 运算 ,可 以 得 到 go'(z)=o(z)(1 一 o(z))。 后 面 的 练习 会 要 求 
计算 它 ， 现 在 可 以 直接 使 用 这 个 结果 。o'(z) 和 o(z)(1 - ol(z)) 这 两 项 在 方程 中 直接 约 去 了 ， 所 以 简 
化 为 : 





1 
=—2X,(0(2)—y) (61) 
WwW; Nx 








中 为 了 证 明 它 ， 需要 假设 目标 输出 y 都 为 0 或 1。 这 通常 是 解决 分 类 问题 的 情况 ,例如 计算 布尔 函数 。 要 想 了 解 不 
做 该 假设 会 怎样 ， 参 见 稍 后 的 练习 。 





66 第 3 章 改进 神经 网 络 的 学 习 方法 




















这 个 方程 非常 优美 ， 它 表明 权重 的 学 习 速 度 受 到 clz) - 7， 也 就 是 输出 中 的 误差 的 制约 。 误 
差 越 大 ， 学 习 速 度 越 快 ， 这 正 是 我 们 期 望 的 。 此 外 ， 该 代价 函数 还 避免 了 方程 (55) 等 二 次 代价 函 
数 中 o'(z) 导 致 的 学 习 缓慢 问题 。 当 使 用 交叉 粹 时 ，o'(z) 被 约 掉 了 ， 所 以 无 须 在 意 它 是 不 是 变 得 很 
小 。 这 种 约 除 就 是 交叉 信 带 来 的 特殊 效果 。 实 际 上 ,这 并 没有 多 么 神奇 。 后面 会 讲 到 ， 这 是 交叉 
焙 的 特性 使 然 。 


根据 类 似 的 方法 ， 可 以 计算 出 关于 偏 置 的 偏 导数 。 这 里 略 去 详细 的 计算 过 程 ， 但 你 可 以 验证 : 
























































0) (62) 
这 避免 了 二 次 代价 函数 中 类 似 于 方程 (56) 中 oC 项 导致 的 学 习 缓慢 。 
练 习 
WA 


回 到 最 初 的 例子 , 看 看 换 成 交 义 烂 之 后 的 学 习 过 程 。 仍然 按照 前 面 的 参数 配置 来 初始 化 神经 
网 络 ， 开 始 权 重 为 0.6， 偏 置 为 0.9。 换 成 交叉 炉 之 后 ， 神 经 网 络 的 学 习 情况 如 图 3-6 所 示 。 


答 入 : 10 一 一 一 给 :082 
w=+0.60 














b=+0.90 
代价 
轮 数 
答 入: 10 一 一 ) 一 给 dH 050 答 和 ,10 一 一 一 (人 一 拘 :030 
w=-0.16 w=—0.58 

b=+0.14 b=-0.28 

代价 代价 
,人 Es 》 

二 轮 数 机 轮 数 
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输入 ， 0 一 一 (一 伯 it 0.18 输入， 10 一 一 人 ) 一 给 0.11 
,三 一 0.90 w=—1.20 





b=-0.60 b= -0.90 
代价 代价 
150 轮 数 200 轮 数 
输入: 0 一 一 (伪作 it: 0.07 输入 : 0 一 一 人 ) 一 篇 : 0.04 
w=—1.47 w=—1.73 
b=—1.17 b=-1.43 
| | 
5 轮 数 0 轮 数 
图 3-6( 续 ) 





毫 不 奇怪 ,在 本 例 中 , 神经 元 学 习 得 相当 出 色 ， 跟 前 面 差不多 。 再 看 看 之 前 出 问题 的 那个 例 
子 ， 权 重 和 偏 置 都 初始 化 为 2.0， 曲 线 变 化 如 图 3-7 所 示 。 


输入 : 0 一 一 (六 一人 0.98 
w=+2.00 


b=+2.00 
代价 
轮 数 
和 输入， 0 一 一 (一 0.59 输入 ， 0 一 一 人 ot 036 
w=+0.17 w= -0.30 
b=+0.17 b=—0.30 


定 
加 
起 
流 

证 
人 
营 
泽 
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输入 : 0 一 一 一 多 : 022 输入 0 一 一 一 多 : 0.13 
w=-0.65 w=—0.95 


b=-0.65 b=-0.95 


200 
输入 : 0 一 一 (一 0.08 | 输入; 10 一 一 + ) 一 钨 由 : 0.05 
= w=-1.49 


b=-—1.23 b=-1.49 
代价 代价 
| 轮 数 | 轮 数 
图 3-7( 续 ) 


成 功 了 ! 这 次 神经 元 的 学 习 速 度 相当 快 , 符合 预期 。 仔细 观察 可 以 发 现代 价 函 数 曲 线 要 比 二 



































次 代价 函数 训练 开始 部 分 陡峭 很 多 。 这 个 交叉 和 导 致 的 陡 度 正 是 我 们 期 望 的 ， 当 神 


严重 错误 时 能 以 最 快 的 速度 学 习 。 


经 元 开始 出 现 


前 面 没 有 提 及 示例 中 选用 的 学 习 率 是 多 少 。 刚 开始 使 用 二 次 代价 函数 时 ， 采 用 了 7 = 0.15 。 








在 新 例子 中 , 还 应 该 使 用 同样 的 学 习 率 吗 ? 实际 上 ,代价 函数 不 同 ,不 能 直接 套用 同样 的 学 习 率 。 
对 于 这 两 种 代价 函数 ， 前 面 只 是 通过 简单 的 试验 来 找到 一 个 能 让 我 们 看 清楚 变化 过 程 的 学 习 率 。 














如 果 你 好 奇 ， 不 妨 了 解 一 下 ， 这 个 例子 采用 了 7 = 0.005 。 





你 可 能 会 反对 : 学 习 率 的 改变 使 得 前 面 的 图 失去 了 意义 ， 然 而 谁 会 在 意 随 意 选择 学 习 率 时 


























神经 元 学 习 的 速度 ?! 这 样 的 反对 其 实 没有 抓 住 重 点 。 前面 的 图 例 不 是 在 讨论 学 习 的 绝对 速度 ， 

而 是 想 研 究 学 习 速度 的 变化 情况 。 使 用 二 次 代价 函数 时 ， 神 经 元 犯 明显 错误 时 的 学 习 速 度 比 快 
接近 正确 输出 时 的 学 习 速 度 要 缓慢 ;而 在 使 用 交叉 箭 的 情况 下 ， 当 神经 元 犯 了 明显 错误 时 学 习 
速度 更 快 。 使 用 二 次 代价 函数 时 ， 如 果 神 经 元 在 接近 正确 的 输出 前 犯 了 明显 错误 ， 学 习 会 变 得 
更 绥 慢 ; 而 使 用 交 义 炉 函数 ， 在 神经 元 犯 明显 错误 时 ， 学 习 反 而 更 快 。 这 些 现象 与 学 习 率 的 设 














置 无 关 。 





前 面 研 究 了 一 个 神经 元 的 交叉 箭 , 将 其 推广 到 有 很 多 神经 元 的 多 层 神经 网 络 也 很 简单 。 假 设 
》 =, 思 … 是 输出 神经 元 的 目标 输出 值 ，af ,az ,… 是 实际 输出 值 ， 那 么 定义 交叉 灶 如 下 : 
































3.1 交叉 灶 代 价 函 数 69 





C=-l55y, ina’+(d-y,)Ind-at)] 
ny 9 


除了 需要 对 所 有 输出 神经 元 进行 求 和 (二 ) 外， 它 其 实 和 方程 (57) 相 同 。 这 里 不 会 给 出 推算 
过 程 ， 但 方程 (63) 确 实 有 助 于 避免 很 多 神经 网 络 中 的 学 习 缓 慢 问题 。 如 果 感 兴趣 ， 可 以 尝试 下 面 
问题 中 的 推导 。 





“交叉 彤 ”这 个 术语 可 能 让 基 些 读者 感到 困惑 ， 因 为 可 能 引起 混淆 ， 特 别 是 对 两 个 概率 分 布 
志和 gj, 定义 其 交叉 焙 为 二 p, ng) 。 如 果 将 单个 sigmoid 神经 元 看 作 输出 一 个 包含 神经 元 激活 什 
4 和 其 补 值 1-a 的 概率 分 布 ， 该 定义 也 许 能 关联 到 方程 (57)。 



































然而 ， 当 最 后 一 层 有 很 多 sigmoid 神经 元 时 ， 激 活 值 a 通常 不 会 形成 概率 分 布 。 因 此 ， 像 
2 p, ing) 这 样 的 定义 没有 实际 意义 ， 因 为 并 没有 用 到 概率 分 布 。 相 反 ， 可 以 将 方程 (63) 看 成 对 
每 个 神经 元 交 又 精 求 和 , 其 中 每 个 神经 元 的 激活 值 可 以 解释 成 二 元 概率 分 布 的 一 部 分 ”方程 (63) 
是 概率 分 布 的 交叉 精 的 一 种 泛 化 形式 。 

应 该 何 时 用 交叉 精 代 蔡 二 次 代价 函数 呢 ? 实际 上 ， 如 果 输 出 神经 元 是 sigmoid 神经 元 ,那么 
交叉 精通 常 是 更 好 的 选择 , 原因 是 初始 化 神经 网 络 的 权重 和 偏 置 时 通常 会 使 用 某 种 随机 方法 。 这 
些 初始 选择 可 能 导致 神经 网 络 误 判 某 些 训练 输入 ， 比 如 目标 输出 为 0， 而 实际 值 为 1， 或 者 反 过 
来 。 如 果 使 用 二 次 代价 函数 ， 就 会 导致 学 习 速度 下 降 。 它 并 不 会 完全 终止 学 习 过 程 ， 因 为 这 些 权 
重 会 持续 从 其 他 样本 中 进行 学 习 ， 但 这 显然 不 是 理想 的 效果 。 


练 习 

口 一 个 小 问题 是 刚 接触 交 叉 时 ， 很 难 立 马 记 住 了 7 和 4 等 的 含义 ， 比 如 表达 式 的 正确 形式 是 
D In at(1-y)In(1-a)] 还 是 -[a In yt+(1-a)ln(1-y)]， 在 py 等 于 0 或 者 1 时， 第 二 个 表达 式 的 
结果 如 何 ? 这 个 问题 会 妨碍 第 一 个 表达 式 吗 ? 为 什么 ? 

口 对 单个 神经 元 的 讨论 指出 ， 如 果 对 所 有 训练 数据 都 有 o(z) 守 y， 那 么 交叉 炳 会 很 小 。 该 论断 
其 实 和 yy 只 等 于 1 或 者 0 有 关 。 这 在 分 类 问题 中 一 般 是 可 行 的 ， 但 是 对 于 其 他 问题 ( 比如 
回归 问题 ) y 可 以 取 0 到 1 的 值 。 请 证 明 对 于 所 有 训练 输入 ， 当 ol(z)=y 时 交 又 炳 仍然 是 最 小 的 。 
此 时 交叉 粒 表 示 为 : 

























































































C=-=Elyiny+( yin-y) ea 





其 中 -ylny+ (1 一 y)In(1 一 四 有 时 也 称 二 元 蚁 。 











Q@ 当然 ,我 们 的 神经 网 络 中 没有 概率 元 素 ， 所 以 它们 实际 上 不 是 概率 。 
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问 题 
口 多 层 多 神经 元 网 络 
用 第 2 章 定 义 的 符号 ， 证 明 对 于 二 次 代价 函数 ， 输 出 层 权重 的 偏 导数 为 : 


| 
Dot (oly))o 2?) (65) 
大 池 





项 a'(27) 会 在 一 个 输出 神经 元 遇 到 错误 值 时 导致 学 习 速 度 下 降 。 请 证 明 对 于 交叉 和 代 价 函 
数 ， 一 个 训练 祥 本 工 的 输出 误差 9 为: 

5 =a’—y (66) 
使 用 该 表达 式 证 明 给 出 层 的 权重 的 偏 导 数 为 : 


oC 1 
re 二 人 (a7 —»,) (67) 
;0 





其 中 o'(zi) 消 掉 了 ,所 以 交 又 灶 避 免 了 学 习 缓 慢 的 问题 , 不仅 在 一 个 神经 元 上 , 而 且 对 多 层 
多 神经 元 网 络 也 起 作用 。 该 分 析 过 程 稍 做 变化 对 偏 置 也 适用 。 如 有 儿 问 ， 需 展开 分 析 。 
口 在 输出 层 使 用 线性 神经 元 时 使 用 二 次 代价 函数 

假设 有 一 个 多 层 多 神经 元 网 络 ， 最 终 输 出 层 的 神经 元 都 是 线性 神经 元 ， 输 出 不 再 是 sigmoid 
函数 作用 的 结果 ,而 是 qi =z?。 请 证 明 如 果 使 用 二 次 代价 函数 ， 那么 单个 训练 样本 x 的 输出 
误差 为 : 

0 =a’—y (68) 
类 似 于 前 一 个 问题 ， 使 用 该 表达 式 证 明 输 出 层 权 重 和 偏 置 的 偏 导 数 分 别 为 : 


Od 








oy 三 0 (qa; —y,) (69) 
6C 1 
5p = P20 = ) (70) 


这 表明 如 果 输 出 神经 元 是 线性 的 ， 那么 二 次 代价 函数 不 再 会 导致 学 习 速 度 下 降 。 在 此 情形 下 ， 
三 次 代价 函数 就 是 一 个 合适 的 选择 。 
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3.1.2 ”使 用 交叉 灶 来 对 MNIST 数字 进行 分 类 


如 果 程 序 使 用 梯度 下 降 算法 和 反问 传播 算法 进行 学 习 ， 那 么 交叉 作 为 其 中 一 部 分 易于 实 
现 。 稍 后 将 改进 前 面 对 MNIST 手写 数字 进行 分 类 的 程序 network.py。 新 的 程序 命名 为 
network2.py, 不 仅 使 用 了 交叉 箭 , 还 有 本 章 介 绍 的 其 他 技术 。 下 面 看 看 新 程序 在 MNIST 数字 分 
类 问题 上 的 表现 。 如 第 1 章 所 示 ， 我 们 会 使 用 一 个 包含 30 个 隐藏 神经 元 的 网 络 ， 小 批量 的 大 小 
也 设置 为 10， 将 学 习 率 设置 为 了 = 0.32, 训练 30 轮 。network2.py 的 接口 和 network.py 的 略 有 区 
别 ， 但 用 法 还 是 很 好 懂 的 。 可 以 在 Python shell 中 使 用 help(network2.Network.SGD) 这 样 的 命令 
来 查看 network2.py 的 接口 文档 。 




















>>> import mnist loader 
>>> training data, validation data, test data = \ 
. mnist loader.1oad data wrapper() 
>>> import network2 
>>> net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost) 
>>> net.large weight initializer() 
>>> net.SGD(training data, 30, 10, 0.5, evaluation data=test data, 
. Monitor evaluation accuracy=True) 


注意 ，net.large_weight_initializer() 命 令 使 用 第 1 章 介绍 的 方式 来 初始 化 权重 和 偏 置 。 
这 里 需要 执行 该 命令 ， 因 为 后 面 才 会 改变 默认 的 权重 初始 化 命令 。 运行 上 面 的 代码 , 神经 网 络 的 
准确 率 可 以 达到 95.49%， 这 跟 第 1 章 中 使 用 二 次 代价 函数 得 到 的 结果 ( 95.42% ) 相当 接近 了 。 











对 于 使 用 100 个 隐藏 神经 元 , 而 交 又 炉 及 其 他 参数 保持 不 变 的 情况 , 准确 率 达 到 了 96.82%。 
相 比 第 1 章 使 用 二 次 代价 函数 的 结果 (96.59% ) 有 一 定 提 升 。 看 起 来 是 很 小 的 变化 ,但 考虑 到 误 
差 率 已 经 从 3.41% 下 降 到 3.18% 了 ， 消 除了 原 误差 的 114， 这 其 实 是 可 观 的 改进 。 














跟 二 次 代价 相 比 , 交叉 炉 代价 函数 能 提供 类 似 的 甚至 更 好 的 结果 , 然而 这 些 结果 不 能 证 明 交 
又 炉 是 更 好 的 选择 ,原因 是 在 选择 学 习 率 、 小 批量 大 小 等 超 参数 上 花 了 一 些 心思 。 为 了 让 提升 更 
有 说 服 力 ， 需 要 对 超 参数 进行 深度 优化 。 然 而 ,这些 结果 仍然 是 令 人 鼓舞 的 ,它们 巩固 了 先前 关 
于 交叉 炳 优 于 二 次 代价 的 理论 推断 。 




































































中 第 1 章 使 用 了 二 次 代价 和 w=3.0 的 学 习 率 。 前 面 讨论 过 ， 当 代价 函数 改变 时 用 “相同 ”的 学 习 率 效果 如 何 难 以 预 
料 。 对 于 两 种 代价 函数 ， 基 于 其 他 超 参数 的 选择 ， 我 都 做 过 试验 来 找 出 能 显著 提高 性 能 的 学 习 率 。 另 外 ， 有 一 个 
非常 粗略 的 推导 ， 能 将 交叉 箭 和 二 次 代价 的 学 习 率 关联 起 来 。 如 前 所 述 ， 二 次 代价 的 梯度 项 中 有 一 个 额外 的 
co=ad-c) ,假设 把 它 按照 o 的 值 平均 ， hel-o)do =1/6。 可 以 看 到 ,按照 相同 的 学 习 率 ， 二 次 代价 会 以 平 
均 1/6 的 速度 进行 学 习 。 这 提示 我 们 , 一 个 合理 的 起 点 是 把 二 次 代价 的 学 习 率 除 以 6。 当然 , 这 个 理由 很 不 严谨 ， 
不 应 拘泥 于 此 ， 不 过 有 时 可 以 作为 有 用 的 起 点 。 
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4 是 本 章 后 面 的 内 容 和 本 书 剩余 内 容 中 一 般 模 式 的 一 部 分 。 稍 后 将 介绍 并 尝试 一 种 新 技术 ， 
它 能 改善 结果 。 进 步 当然 很 好 , 但 是 解释 这 些 改善 通常 困难 重重 ， 只 有 在 进行 大 量 工作 来 优化 其 
他 所 有 超 参 数 并 带 来 提升 时 ,它们 才 具 有 说 服 力 。 这 样 做 工作 量 很 大 , 需要 大 量 算 力 ,我们 通常 
不 会 进行 这 样 彻底 的 调研 ， 因 此 我 采用 前 面 那 些 不 太 正式 的 测试 来 达到 目标 。 然 而 你 要 记 住 , 这 
样 的 测试 仍 缺 乏 权威 的 证 明 ， 需 要 注意 那些 使 得 论断 失效 的 迹象 。 















































前 面 用 了 很 长 的 篇 幅 介 绍 交 叉 炉 ， 为 何 花 费 这 么 多 精力 讲解 这 种 技术 呢 ?” 它 只 能 给 MNIST 
图 像 分 类 结果 带 来 一 点 点 提升 ， 而 后 面 将 介绍 的 其 他 技术 能 提升 更 多 , 例如 正则 化 。 如 此 细致 地 
讨论 交叉 箭 的 部 分 原因 是 ， 交 叉 焙 是 一 种 广泛 使 用 的 代价 函数 ， 值 得 深入 理解 。 更 重要 的 原因 是 ， 
神经 元 的 饱和 是 神经 网 络 中 的 一 个 关键 问题 ， 本 书 会 反复 探讨 这 个 问题 。 因 此 , 深入 讨论 交 义 信 
是 理解 神经 元 饱和 及 其 解决 方法 的 良好 开端 。 
























































3.1.3 ”交叉 业 的 合 义 与 起 源 
前 面 对 于 交叉 粹 的 讨论 着 重 于 代数 分 析 和 代码 实现 ,虽然 很 有 用 ,但 未 解答 一 些 更 宽泛 的 
概念 性 问题 。 比 如 , 交叉 炳 究 况 意味 着 什么 ? 能 否 凭 直觉 认识 交叉 炉 ? 我 们 如 何 想到 要 利用 这 个 


概念 ? 























首先 回答 最 后 一 个 问题 ， 即 如 何 想 到 利用 交叉 粹 。 假设 我 们 发 现 学 习 速 度 下 降 了 ,并 了 解 是 
方程 (55) 和 方程 (56) 中 的 o'(z) 这 一 项 造成 的 。 在 研究 了 这 些 方程 后 ,我 们 可 能 想 选 择 一 个 不 包含 
o'(2) 的 代价 函数 。 这 时 对 于 一 个 训练 样本 x， 其 代价 C= C, 满 足 : 








(a O71) 
Ww 
(a 072) 


如 果 所 选 的 代价 函数 满足 这 些 条 件 , 那么 它们 就 会 简单 地 表现 为 初始 误差 越 大 , 神经 元 学 习 
得 越 快 ， 这 也 能 够 解决 学 习 速 度 下 降 的 问题 。 实 际 上 ， 基 于 这 些 方程 ， 赁 数学 直觉 推导 出 交叉 彤 
的 形式 是 可 行 的 。 下 面 推 导 一 下 ， 由 链 式 法 则 可 得 : 














(7) (73) 





利用 o"(z)=o(z)l1 -oo(z))=a(l-a) ， 上 个 方程 变 成 : 
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a-0) (74) 
对 比方 程 (72)， 可 得 : 
生生 (75) 
Ga all-a) 
对 该 方程 就 a 进行 积分 ， 可 得 : 
C=- [ylna+(—y)In(—a)]+constant (76) 


其 中 constant 是 积分 常量 。 这 是 一 个 单独 的 训练 样本 x 对 代价 函数 的 影响 。 为 了 得 到 完整 的 代价 
函数 ， 需 要 对 所 有 训练 样本 进行 平均 ， 可 得 : 


C= A Ina+(1—y)In(l—a)]+constant (77) 
I 


年 


其 中 的 常量 就 是 所 有 单独 常量 的 平均 ， 所 以 方程 (71) 和 方程 (72) 确 定 了 交叉 彤 的 形式 整体 上 为 党 
量 。 这 个 交叉 和 并 不 是 凭空 产生 的 ， 而 是 以 自然 、 简 单 的 方法 得 到 的 。 

















交叉 焙 的 直观 含义 是 什么 ?如 何 看 待 它 ?深入 解释 这 一 点 非常 复杂 ， 但 仍 值得 一 提 ， 有 一 
种 源 自 信息 论 的 标准 解释 方式 。 粗 略 地 说 ， 交 又 信 是 对 “不 确定 性 ”的 一 种 衡量 。 例 如 神经 元 
想 要 计算 函数 x 一 y=y(x) ,但 它 用 函数 x 一 a =a(x) 进行 了 替换 。 假 设 将 a 想象 成 神经 元 估计 
y=1 的 概率 , 而 1-a 是 y=0 的 概率 , 那么 交叉 灶 衡 量 的 是 学 习 到 y 的 实际 值 的 平均 不 确定 性 。 
如 果 输 出 目标 结果 , 不 确定 性 就 会 小 一 点 , 反之 不 确定 性 就 会 大 一 些 。 当 然 , 这 里 没有 说 明 “ 不 
确定 性 ”到 底 意味 着 什么 ， 所 以 看 似 空谈 。 实 际 上 ， 在 信息 论 中 有 一 种 定义 不 确定 性 的 准确 方 
式 。 互 联网 上 有 对 该 主题 的 简短 而 清晰 的 讨论 ， 如 果 你 想 深入 了 解 ， 维 基 百 科 有 一 个 简短 的 总 
结 ， 能 指引 你 正确 地 探索 该 领域 。 更 多 细节 ， 可 以 阅读 《信息 论 基础 》 第 5 章 涉 及 Kraft 不 等 式 
的 内 容 。 



































问 题 
前 面 深入 讨论 了 在 使 用 二 次 代价 函数 的 神经 网 络 中 ， 当 输出 神经 元 饱和 时 学 习 缓 慢 的 问 
题 ， 另 一 个 可 能 影响 学 习 的 因素 是 方程 (61) 中 的 x, 项 。 当 输入 x 接近 0 时 ,对 应 的 权重 w, 会 学 
习 得 相当 缓慢 。 请 解释 为 何不 可 以 通过 改变 代价 函数 来 消除 项 的 影响 。 
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3.1.4 softmax 





本 章 主要 使 用 交叉 入 来 解决 学 习 缓 慢 的 问题 , 下 面 简单 介绍 另 一 种 解决 方法 一 一 基于 softmax 
神经 元 层 。 本 章 后 面 不 会 使 用 softmax 层 ， 所 以 你 可 以 略 过 这 一 部 分 。 不 过 ，softmax 仍 有 其 讨论 
价值 ， 一 方面 它 本 身 很 有 趣 ， 另 一 方面 ， 第 6 章 介绍 深度 神经 网 络 时 会 使 用 softmax 层 。 











softmax 的 思路 其 实 是 为 神经 网 络 定义 一 种 新 的 输出 层 。 开 始 时 和 sigmoid 层 相 同 , 首先 计算 
带 权 输入 ”z7 = > wat +Dy 。 不 过 , 这 里 不 会 使 用 sigmoid 函数 来 获得 输出 , 而 会 在 这 一 层 对 z” 
应 用 softmax 函数 ， 这 样 第 j 个 神经 元 的 激活 值 a; 为 : 








zt 


a (78) 


ee 
有 
其 中 分 母 中 的 求 和 是 对 所 有 输出 神经 元 进行 的 。 























如 果 不 熟悉 这 个 softmax 函数 ,可 能 会 觉得 方程 (78) 比 较 费 解 ， 因 为 不 清楚 使 用 它 的 原因 ， 也 
不 清楚 它 是 否 有 助 于 解决 学 习 缓慢 的 问题 。 为 了 更 好 地 理解 方程 (08)， 假 设 有 一 个 含 4 个 输出 神 
经 元 的 神经 网 络 ， 对 应 4 个 带 权 输入 z/、zt、zt 和 zt 。 图 3-8 中 的 条 块 显 示 带 权 输 入 的 可 能 
值 和 对 应 输出 激活 值 的 图 形 ， 可 以 通过 增 大 z! 来 开始 探索 。 
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图 3-8 








Qa 描述 softmax 的 过 程 中 会 经 常 使 用 第 2 章 中 的 符号 ， 需 要 时 可 自行 回顾 。 
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当 z/ 增 大 后 , 可 以 看 到 对 应 的 激活 值 a 增 大 了 , 而 其 他 激活 值 减 小 了 。 类 似 地 , 如 果 减 小 z! ， 
那么 a! 会 随 之 减 小 ， 而 其 他 激活 值 会 增 大 。 实 际 上 ， 仔 细 观 察 的 话 ， 就 会 发 现在 两 种 情形 下 ， 
其 他 激活 值 的 整体 改变 恰好 弥补 了 al 的 变化 。 原因 很 简单 ,根据 定义 , 输出 的 激活 值 之 和 为 1， 
使 用 方程 (78) 和 些许 代数 可 以 证 明 : 








3 -全 
所 以 ,如果 ai; 增 大 ， 那么 其 他 输出 激活 值 肯定 会 
和 为 1。 当 然 ， 类 似 的 结论 对 其 他 激活 值 也 成 立 。 





=1 (79) 


总 共 下 降 相 同 的 量 ， 来 保证 所 有 激活 值 的 
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方程 (78) 同 样 保 证 输出 激活 值 都 是 正 数 ， 因 为 指数 函数 为 正 。 将 这 两 点 结合 起 来 ， 可 以 看 到 
softmax 层 的 输出 是 一 些 和 为 1 的 正 数 的 集合 。 换 言 之 ， 可 将 softmax 层 的 输出 视 作 概率 分 布 。 








这 样 做 的 效果 很 不 错 。 在 很 多 问题 中 ， 能 将 输出 激活 值 or 理解 为 神经 网 络 对 于 正确 输出 为 7 
的 概率 的 估计 是 非常 有 用 的 。 比 如 在 MNIST 分 类 问题 中 , 可 以 将 a 解释 成 神经 网 络 估计 正确 数 
字 分 类 为 7 的 概率 。 

对 比 一 下 ， 如 果 输 出 层 是 sigmoid 层 ， 那 么 肯定 不 能 假设 激活 值 形成 了 一 个 概率 分 布 。 这 里 
不 会 证 明 这 一 点 , 但 是 来 自 sigmoid 层 的 激活 值 是 不 能 形成 概率 分 布 的 一 般 形式 的 , 因此 对 于 
sigmoid 输出 层 ， 本 书 没有 关于 输出 激活 值 的 简单 解释 。 















































练 习 
请 举例 说 明 如 果 神 经 网 络 的 输出 层 是 sigmoid 层 ， 输 出 激活 值 4; 之 和 并 不 一 定 为 1。 





这 就 涉及 softmax 函数 的 形式 和 行为 特征 了 。 回 顾 一 下 , 方程 (78) 中 的 指数 确保 了 所 有 输出 
激活 值 为 正 ， 分 母 的 求 和 又 保证 了 softmax 的 输出 之 和 为 1， 所 以 这 个 特定 形式 较 之 前 更 容易 理 
解 : 一 种 确保 输出 激活 值 形成 概率 分 布 的 自然 方式 。 可 以 理解 为 softmax 重新 调节 zy ， 然 后 将 结 
果 整 合 为 概率 分 布 。 





练 习 
口 softmax 的 单调 性 
请 证 明 ] = 大 时 6ar /6z4 为 正 ，j 关 上 时 Oa’ 16zf 为 负 。 结 果 是 ， 增 大 2; 会 增 大 对 应 的 给 出 激 
活 值 a; 并 减 小 其 他 所 有 输出 激活 值 ， 请 给 出 严格 证 明 。 
口 softmax 的 非 局 部 性 
sigmoid 层 的 一 个 优势 是 输出 是 对 应 带 权 输入 的 函数 ，a! = a(z7) 。 请 解释 为 何 对 于 softmax 
层 来 说 ， 并 非 任 何 特定 输出 激活 值 al 都 依赖 所 有 带 权 输 入 。 


问 题 
口 逆转 softmax 层 
假设 有 一 个 神经 网 络 的 输出 层 使 用 softmax， 且 激活 值 a 已 知 ,请 证 明 对 应 带 权 输 入 的 形式 
pel 天下 从 和 加 区 于 ] 
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学 习 缓慢 的 问题 : 前 面 用 了 相当 长 的 篇 幅 介绍 softmax 层 ， 但 没有 提 到 它 如 何 解决 学 习 缓 慢 
的 问题 。 为 了 理解 这 一 点 ,首先 定 义 一 个 对 数 似 然 代价 函数 。 我 们 使 用 x 表示 神经 网 络 的 训练 输 
入 ,用 ?表示 对 应 的 目标 输出 ， 则 与 该 训练 输入 关联 的 对 数 似 然 代 价 函 数 为 : 
C=-Ina’ (80) 
因此 ， 如 果 用 MNIST 图 像 进 行 训练 ， 输 入 7 的 图 像 ， 那 么 对 应 的 对 数 似 然 代 价 为 -In a 。 
可 以 想见 , 当 神 经 网 络 表现 很 好 的 时 候 , 即 确认 输入 为 7 时 , 它 估计 的 对 应 概率 a; 会 非常 接近 1， 
所 以 代价 -ne 会 很 小 。 反之， 如 果 神 经 网 络 表 现 糟糕 ， 概 率 or 就 变 得 很 小 , 代价 -inay 随 之 增 
大 ， 因 此 对 数 似 然 代 价 函 数 也 是 理想 的 代价 函数 。 









































为 了 分 析 学 习 缓慢 的 问题 , 回想 一 下 学 习 缓慢 的 关键 就 是 量 6C18w 和 6C/182: 的 变化 情况 。 
稍 后 的 问题 会 要 求 详细 的 推导 ， 但 通过 一 点 代数 运算 可 以 得 到 " 








oC 
pe (81) 
Ea 
oC 2 
Br = (i) (82) 
大 





这 些 方程 其 实 和 前 面 分 析 交 叉 炉 得 到 的 类 似 ， 例 如 比较 方程 (82) 和 方程 (67)， 尽 管 后 者 对 整 
个 训练 样本 进行 了 平均 , 但 形式 还 是 一 致 的 。 而 且 ， 正如 前 面 的 分 析 ， 这些 表达 式 能 够 避免 学 习 
缓慢 的 问题 。 实 际 上 ， 认 识 到 具有 对 数 似 然 代 价 的 softmax 输出 层 与 具有 交叉 粹 代价 的 sigmoid 
输出 层 的 相似 性 会 很 有 帮助 。 


既然 二 者 很 相似 , 那么 如 何 选择 呢 ? 实际 上 , 在 很 多 场景 中 ,这 两 种 方式 的 效果 都 不 错 。 稍 
后 会 将 sigmoid 输出 层 和 交叉 炉 代 价 组 合 使 用 ,第 6 章 会 讨论 softmax 输出 层 和 对 数 似 然 代价 的 
搭配 使 用 。 切 换 是 为 了 跟 一 些 具 有 影响 力 的 学 术 论文 中 的 形式 更 为 相近 。 一 般 而 言 ，softmax 与 
对 数 似 然 的 组 合 更 适用 于 需要 将 输出 激活 值 解释 为 概率 的 场景 。 这 并 不 需要 额外 注意 , 但 是 对 于 
涉及 不 重生 类 别 的 分 类 问题 (例如 对 MNIST 图 像 分 类 ) 很 有 用 。 










































































Q 注意 这 里 表示 上 的 差异 ， 这 里 的 y 和 上 一 段 中 的 不 同 。 上 一 段 用 表示 神经 网 络 的 目标 输出 ， 例 如 输入 7 的 图 
像 ， 输 出 一 个 7; 但 接 下 来 的 方程 用 表示 7 对 应 的 输出 激活 值 的 向 量 , 即 它 是 一 个 除了 第 7 位 为 1,， 其 他 所 有 位 
都 是 0 的 向 量 。 
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问 题 
口 推导 方程 (81) 和 方程 (82)。 
口 softmax 这 个 名 称 从 何 而 来 
假设 修改 一 下 softmax 函数 ， 使 得 输出 激活 值 定义 如 下 : 





2 
e 
区 
C 


二 (83) 
~ 党 ec 


其 中 c 是 正 的 常量 。 注 意 c=1 对 应 标准 的 softmax 函数 。 如 果 使 用 不 同 的 c 得 到 不 同 的 函数 ， 
其 本 质 上 和 原来 的 softmax 函数 是 很 相似 的 。 请 证 明 输 出 激活 值 也 会 形成 概率 分 布 ， 正 如 一 
般 的 softmax 函数 那样 。 假 设 c 足 够 大 ， 比 如 c 一 oo ， 那 么 输出 激活 值 qi 的 极限 值 是 多 少 ? 


解决 了 这 个 问题 后 ， 就 能 明白 为 何 把 c=1 对 应 的 函数 看 作 一 个 最 大 化 函数 的 柔和 版 本 ， 这 
就 是 术语 softmax 的 由 来 。 


口 softmax 和 对 数 似 然 的 反 向 传播 


第 2 章 推 导 了 使 用 sigmoid 层 的 反 向 传播 算法 , 为 了 将 其 应 用 于 使 用 softmax 层 的 神经 网 络 ， 
需要 和 弄 清楚 最 后 一 层 的 误差 表示 6/ =6C/16z/ ， 请 证 明 如 下 形式 : 


07 =a) —y) (84) 
使 用 该 表达 式 ， 可 以 对 使 用 softmax 层 和 对 数 似 然 代价 的 神经 网 络 应 用 反 向 传播 。 
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诺 贝尔 物理 学 奖 得 主因 里 科 ， 费 米 有 一 次 被 问 到 他 对 其 他 同事 提出 的 数学 模型 有 何 看 法 ， 
这 个 数学 模型 尝试 解决 一 个 物理 难题 。 模 型 和 实验 非常 匹配 , 但 费 米 对 其 产生 了 怀疑 。 他 问 模型 
中 需要 设置 多 少 个 自由 参数 。 听 到 答案 是 “4” 后 ， 费 米 讲 道 ”:“ 我 的 朋友 约翰 . 汉 ' 诺 伊 曼 过 
去 常 阅 “如 果 有 4 个 参数 ， 我 可 以 模拟 一 头 大 象 ， 有 5 个 参数 的 话 ， 我 还 能 让 它 卷 时 子 " 。 
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其 实 这 是 说 拥有 大 量 自由 参数 的 模型 能 够 模拟 复杂 场景 。 即使 这 样 的 模型 能 够 很 好 地 拟 合 已 
有 数据 , 也 并 不 表示 它 是 一 个 好 模型 。 可 能 只 是 因为 模型 中 足够 的 自由 度 让 它 可 以 描述 几乎 所 有 
给 定 大 小 的 数据 集 ， 而 无 须 洞察 现象 的 本 质 。 在 这 种 情形 下 ,模型 对 已 有 数据 会 表现 得 很 好 , 但 
很 难 泛 化 到 新 数据 。 对 模型 而 言 ， 真 正 的 考验 是 它 对 陌生 场景 的 预测 能 力 。 
























































GD 这 个 故事 引用 自 弗 里 曼 : 戴 森 所 写 的 一 篇 引人入胜 的 文章 。 他 是 那个 有 瑕 症 的 模型 的 提出 者 之 一 。 
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费 米 和 冯 “' 诺 伊 曼 对 仅 含 有 4 个 参数 的 模型 表示 怀疑 。 前 面 用 于 对 MNIST 数字 进行 分 类 的 
神经 网 络 有 30 个 隐藏 神经 元 ， 以 及 近 24 000 个 参数 ! 确实 不 少 。 有 100 个 隐藏 神经 元 的 网 络 的 
参数 数量 将 近 80 000, 而 目前 更 高 级 的 深度 神经 网 络 包含 百 万 级 甚至 十 亿 级 的 参数 。 它 们 产生 的 
结果 可 信赖 吗 ? 








下 面 构造 一 个 泛 化 能 力 很 差 的 神经 网 络 来 回答 这 个 问题 。 该 神经 网 络 有 30 个 隐藏 神经 元 ， 
共 23 860 个 参数 ， 但 我 们 不 会 使 用 所 有 50 000 幅 MNIST 训练 图 像 ， 而 只 使 用 前 1000 幅 图 像 ， 
因为 使 用 这 个 有 限 的 集合 能 凸显 泛 化 问题 。 按 照 之 前 的 方式 使 用 交叉 炉 代价 函数 ， 设 置 学 习 率 
n=0.5 ， 小 批量 大 小 设置 为 10， 不 过 要 训练 400 轮 ， 比 前 面 的 多 一 些 ， 因 为 只 用 了 少量 训练 样 
本 。 下 面 使 用 network2 来 研究 代价 函数 的 变化 情况 : 




















>>> import mnist loader 

>>> training data, validation data, test data = \ 
. mnist loader.1oad data wrapper() 

>>> import network2 

>>> net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost) 

>>> net.large weight initializer() 

>>> net.SGD(training data[:1000], 400, 10, 0.5, evaluation data=test data, 
. monitor evaluation accuracy=True, monitor training cost=True) 


根据 上 面 的 结果 ， 可 以 画 出 该 神经 网 络 学 习 时 的 代价 变化 情况 "， 如 图 3-9 所 示 。 
训练 数据 集 上 的 代价 
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图 3-9 

















Qz 此 图 以 及 接 下 来 的 4 幅 图 由 程序 overfitting.py 生成 。 
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形势 可 观 ， 代 价 呈 现 平 滑 的 下 降 ， 跟 预期 一 致 。 注 意 ， 这 里 只 展示 了 200 ~ 399 轮 的 情况 ， 
因为 训练 后 期 有 些 地 方 值得 研究 。 


分 类 准确 率 在 测试 集 上 的 表现 如 图 3-10 所 示 。 


测试 数据 集 上 的 准确 率 〈%) 
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图 3-10 


这 里 还 是 聚焦 训练 后 期 。 前 200 轮 ( 图 中 未 显示 ) 准确 率 提升 到 了 近 82%， 随 后 学 习 趋 缓 ， 
最 终 在 280 轮 左右 停止 增长 。280 轮 后 的 准确 率 只 是 随机 上 下 小 幅 波 动 。 对 比 图 3-9 和 图 3-10， 
图 3-9 中 跟 训 练 数据 相关 的 代价 持续 平滑 下 降 。 如 果 只 看 那个 代价 ， 会 发 现 模型 的 表现 变 得 “更 
好 ”了 ,然而 测试 准确 率 表明 提升 只 是 一 种 假象 。 就 像 费 米 不 大 喜欢 的 那个 模型 一 样 ， 神 经 网 络 
在 280 轮 后 就 不 再 能 泛 化 到 测试 数据 了 ， 所 以 这 并 非 有 效 的 学 习 。 可 以 说 神经 网 络 在 280 轮训 练 
后 就 过 拟 合 或 者 过 度 训 练 了 。 






































你 可 能 想 知 道 这 里 的 问题 是 否 由 于 看 的 是 训练 数据 的 代价 , 对 比 的 却 是 测试 数据 上 的 分 类 准 
确 率 。 换 言 之 ， 可 能 这 里 在 比较 苹果 和 橙子 。 如 果 比 较 训练 数据 上 的 代价 和 测试 数据 上 的 代价 ， 
会 怎么 样 呢 ? 是 在 比较 相似 的 度量 吗 ” 能 和 否 比较 两 个 数据 集 上 的 分 类 准确 率 ” 实际 上 , 不 管 使 用 
什么 度量 方式 , 尽管 细节 上 会 变化 , 但 本 质 上 都 是 相同 的 。 测 试 数据 集 上 的 代价 变化 情况 如 图 3-11 
所 示 。 
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测试 数据 集 上 的 代价 
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图 3-11 
测试 集 上 的 代价 在 15 轮 前 一 直 提 升 ， 之 后 越 来 越 差 ， 尽 管 训练 数据 集 上 的 代价 表现 越 来 越 忆 
好 ， 也 仍然 如 此 。 这 其 实 是 模型 过 拟 合 的 另 一 种 迹象 。 应 当 将 15 轮 还 是 280 轮 当 作 过 拟 合 开始 
影响 学 习 的 时 间 点 ?尽管 有 这 个 令 人 困扰 的 问题 , 但 从 实践 角度 讲 , 我 们 的 目标 是 提升 测试 数据 
集 上 的 分 类 准确 率 ， 而 测试 集 上 的 代价 不 过 是 分 类 准确 率 的 一 个 反映 ， 因 此 更 合理 的 选择 是 将 
280 轮 看 作 过 拟 合 开 始 影响 学 习 的 时 间 点 。 

















男 一 个 过 拟 合 的 迹象 从 训练 数据 上 的 分 类 准确 率 上 也 能 看 出 来 ， 如 图 3-12 所 示 。 
训练 数据 集 上 的 准确 率 (%) 
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准确 率 一 路 提升 至 100%, 即 该 神经 网 络 能 够 正确 分 类 所 有 1000 幅 图 像 ! 而 此 时 的 测试 准确 
率 仅仅 达到 了 82.27%。 所 以 该 神经 网 络 实际 上 在 学 习 训 练 数据 集 的 特例 ， 而 无 法 进行 一 般 的 识 
别 。 该 神经 网 络 几乎 只 是 单纯 地 记忆 训练 集 ， 而 没有 理解 数字 的 本 质 并 泛 化 到 测试 数据 集 
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过 拟 合 是 神经 网 络 的 一 个 主要 问题 , 在 现代 神经 网 络 中 很 常见 ， 因 为 其 中 的 权重 和 偏 置 往生 
数量 庞大 。 为 了 高 效 训 练 ， 需要 运用 一 种 技术 检测 过 拟 合 是 否 发 生 ， 以 避免 过 度 训 练 并 降低 过 拟 


合 的 影响 。 


[a 





检测 过 拟 合 的 典型 方法 如 前 所 述 , 即 跟踪 测试 数据 集 上 准确 率 随 训 练 变化 的 情况 。 如 果 看 到 
测试 数据 集 上 的 准确 率 不 再 提升 ， 就 停止 训练 。 当 然 , 严格 地 说 ,这 其 实 不 是 过 拟 合 的 一 个 必然 
现象 ， 因 为 测试 集 和 训练 集 上 的 准确 率 可 能 同时 停止 提升 。 当 然 ， 采 用 这 样 的 策略 可 以 避免 过 
拟 合 。 









































下 面 使 用 这 种 策略 的 变 体 来 进行 试验 。 之 前 加 载 MNIST 数据 时 加 载 了 3 个 数据 集 : 


>>> import mnist loader 
>>> training data, validation data, test data = \ 
.. mnist loader.1load data wrapper() 








前 面 一 直 在 使 用 training data 和 test_data， 没有 用 到 validation data。validation data 
包含 了 10 000 幅 数字 图 像 , 这 些 图像 与 MNIST 训练 数据 集中 的 50 000 幅 图 像 和 测试 数据 集中 的 
10 000 幅 图 像 都 不 同 。 我 们 将 使 用 validation_data 而 不 是 test_data 来 避免 过 拟 合 ， 策 略 与 之 
前 对 test_ data 采用 的 相同 。 每 轮训 练 最 后 都 计算 在 validation_data 上 的 分 类 准确 率 。 一 旦 分 
类 准确 率 饱和 ， 就 停止 训练 ,该 策略 称 为 提前 停止 。 当 然 ， 实际 应 用 中 无 法 立即 知道 何 时 准确 率 
饱和 ， 所 以 我 们 会 一 直 训 练 ， 直 到 确定 准确 率 已 经 饱和 ”。 






































为 何 使 用 validation_data 替代 test_data 来 避免 过 拟 合 问题 呢 ? 实际 上 ， 这 是 一 般 策 略 的 
一 部 分 ， 这 个 一 般 策 略 就 是 使 用 validation data 来 衡量 选择 不 同 超 参 数 ( 比如 训练 轮 数 、 学 习 
率 、 最 佳 神经 网 络 架 构 等 ) 的 效果 。 我 们 使 用 这 样 的 方法 来 找到 超 参数 的 合适 值 。 因 此 ， 尽 管 前 
面 没 有 提 及 这 点 ,但 其 实 已 经 稍微 介绍 了 选择 超 参数 的 一 些 方法 ( 稍 后 详 述 )。 

















当然 ， 这 仍然 没有 回答 为 什么 用 validation data 而 不 是 test_data 来 避免 过 拟 合 问题 。 实 
际 上 ， 有 个 更 为 一 般 的 问题 ， 为何 用 validation data 代替 test_data 来 设置 更 好 的 超 参数 ? 原 





























中 








里 需要 一 些 判定 标准 来 确定 何 时 停止 。 前 面 的 图 中 将 280 轮 看 作 饱和 点 ， 可 能 有 点 草率 了 ， 因 为 神经 网 络 有 时 
在 训练 中 处 于 一 个 稳定 期 ， 然 后 又 开始 提升 。 如 果 在 400 轮 后 ， 性 能 又 开始 提升 ( 也 许 只 是 少许 提升 )， 也 不 无 
能 。 因 此 ， 提 前 停止 的 实施 策略 可 能 激进 ， 也 可 能 温和 。 
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因 是 设置 超 参数 时 ， 我 们 想 尝 试 不 同 的 超 参 数 选择 。 如 果 基 于 test data 设置 超 参 数 ， 可 能 最 终 
会 在 test _ data 上 过 拟 合 超 参 数 。 也 就 是 说 ， 可 能 会 找到 那些 符合 test_data 特征 的 超 参 数 ， 但 
神经 网 络 的 表现 并 不 能 谤 化 到 其 他 数据 集 。 我 们 借助 validation data 来 克服 这 个 问题 ， 一 旦 获 
得 想 要 的 超 参数 ， 就 使 用 test_ data 测试 准确 率 ，test_data 上 的 测试 结果 能 够 衡量 神经 网 络 的 
泛 化 能 力 。 换 言 之 ,可 以 将 验证 集 看 作 一 种 特殊 的 训练 数据 集 ， 它 有 助 于 学 到 好 的 超 参数 。 这 种 
寻找 好 的 超 参数 的 方法 有 时 称 作 hold out( 取出 ) 方 法 , 因为 validation data 是 从 training data 
训练 集中 留 出 或 者 取出 的 一 部 分 。 

















在 实际 应 用 中 ， 其 至 在 衡量 了 test data 的 表现 后 ,我们 可 能 会 改变 想法 并 尝试 其 他 方法 ， 
也 许 会 采用 不 同 的 神经 网 络 架 构 ， 而 这 会 涉及 寻找 新 的 超 参数 。 这 样 做 的 话 ， 不 会 陷入 在 
test_data 上 过 拟 合 的 困境 吗 ? 是 否 需要 数据 集 的 一 种 潜在 无 限 回归 ， 以 确保 模型 能 够 泛 化 ? 消 
除 这 样 的 疑惑 其 实 是 一 个 艰深 的 问题 , 但 是 对 我 们 实际 应 用 的 目标 , 无 须 担心 太 多 。 我 们 会 继续 
使 用 training data、validation data 和 test_data 采用 过 的 基本 hold out 方 法 。 























前 面 研 究 过 拟 合 问题 只 使 用 了 1000 幅 训 练 图 像 ， 如 果 使 用 所 有 50 000 幅 图 像 进行 训练 会 怎 
样 ? 我 们 保持 其 他 所 有 参数 都 相同 (30 个 隐藏 神经 元 ， 学 习 率 为 0.5， 小 批量 大 小 为 10 ), 但 是 
轮 数 为 30。 图 3-13 展示 了 分 类 准确 率 在 训练 集 和 测试 集 上 的 变化 。 请 注意 ,使 用 的 是 测试 集 ， 
而 不 是 验证 集 ， 为 的 是 便于 跟前 面 的 图 比较 。 
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图 3-13〈 见 彩 插 ) 

















图 中 显示 测试 集 和 训练 集 上 的 准确 率 相 比 使 用 1000 幅 训练 图 像 时 相差 更 小 ， 其 中 在 训练 集 
上 的 最 佳 分 类 准确 率 为 97.86%, 只 比 测试 集 上 的 准确 率 95.33% 高 了 2.53%。 而 在 之 前 的 例子 中 ， 
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这 个 差距 是 17.73%。 过 拟 合 仍然 发 生 了 , 但 是 减轻 了 不 少 , 神经 网 络 从 训练 数据 更 好 地 泛 化 到 了 
测试 数据 。 通 常 降低 过 拟 合 的 有 效 方式 之 一 是 增加 训练 样本 的 数量 。 有 了 足够 的 训练 数据 ， 规模 
较 大 的 神经 网 络 不 大 容易 过 拟 合 。 然 而 训练 数据 其 实 是 很 难 获取 或 者 很 昂贵 的 资源 , 所 以 这 不 是 
一 种 切实 的 选择 。 























3.2.1 正则 化 


增加 训练 样本 的 数量 是 一 种 缓解 过 拟 合 的 方法 , 还 有 其 他 方法 吗 ? 另 一 种 可 行 的 方法 是 缩小 
神经 网 络 的 规模 ,然而 大 型 神经 网 络 比 小 型 神经 网 络 的 潜力 大 , 采用 大 型 神经 网 络 往往 是 不 得 已 
的 选择 。 


























好 在 还 有 其 他 技术 能 够 缓解 过 拟 合 ， 即 使 只 有 一 个 固定 的 神经 网 络 和 固定 的 训练 集 也 可 行 ， 
这 种 技术 就 是 正则 化 。 下 面 会 介绍 常用 的 正则 化 手段 ， 有 时 称 为 权重 衰减 或 者 L2 正则 化 。L2 正 
则 化 的 思想 是 对 代价 函数 增加 额外 的 一 项 一 一 正则 化 项 。 正 则 化 的 交叉 烂 如 下 所 示 : 




















1 4 
C=-2Z[mne+d py) ne) + Ew (85) 
yd w 





其 中 第 一 项 就 是 交叉 灶 的 常规 表达 式 ， 加 入 的 第 二 项 是 所 有 权重 的 平方 和 。 然 后 使 用 一 个 因子 
412n 进行 量化 调整 ， 可 以 将 4 > 0 称 作 正 则 化 参数 ，7 是 训练 集 的 大 小 ， 稍 后 会 讨论 选择 4 的 
策略 。 需 要 注意 的 是 ,正则 化 项 中 不 含 侦 置 ， 稍 后 详 述 。 




















当然 ， 也 可 以 对 其 他 代价 函数 进行 正则 化 ， 例 如 二 次 代价 函数 。 类 似 的 正则 化 形式 如 下 : 


1 LIl2 1 这 
两 者 都 可 以 写成 如 下 形式 : 
人 (87) 
2711 宫 

















其 中 Cn Sh te 直观 而 言 ， 正 则 化 的 效果 是 让 神经 网 络 倾 向 于 学 习 小 的 权重 ,其 他 
地 方 都 相同 。 大 的 权重 只 在 能 给 代价 函数 第 一 项 带 来 足够 提升 时 才 被 允许 。 换 言 之, 可 以 把 正则 
化 视 作 一 种 et 。 这 两 部 分 之 间 的 相对 重要 性 由 
4 的 值 来 控制 : 4 越 小 ， 就 越 倾向 于 最 小 化 原始 代价 函数 ; 反之 倾向 于 小 的 权重 。 



































至 此 , 还 未 解释 这 样 的 折 中 方案 为 何 能 减轻 过 拟 合 , 但 实际 表现 证 明了 这 一 点 , 稍 后 会 回答 
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这 个 问题 。 下 面 看 一 个 证 明正 则 化 的 确 能 减轻 过 拟 合 的 例子 。 


为 了 构造 这 个 例子 , 首先 需要 和 弄 清楚 如 何 对 正则 化 的 神经 网 络 应 用 随机 梯度 下 降 算法 , 我 们 
需要 知道 如 何 计算 神经 网 络 中 所 有 权重 和 偏 置 的 偏 导数 6C /6w 和 6C/6b。 对 方程 (87) 求 偏 导数 
可 得 : 











aC_ac ,4 (88) 
Ow Ow 7 

oc _00, (89) 
ob 0%b 




















如 第 2 章 所 述 ， 可 以 通过 反 向 传播 计算 3C, /6w 和 6C, /6b 。 所 以 计算 正则 化 的 代价 函数 的 
梯度 很 简单 ， 只 需要 运用 反 向 传播 ， 然 后 加 上 和 ,得 到 所 有 权重 的 偏 导数 。 而 偏 置 的 偏 导数 保持 
不 变 ， 所 以 偏 置 的 梯度 下 降 学 习 规则 不 会 改变 。 









































OC. 
六 一 0 一 7 一 人 90 
Li (90) 

权重 的 学 习 规 则 变 为 : 

w MY (91) 

Ow nn 
E [jw (92) 

n Ow 


除了 通过 因子 1- 和 区 重新 调整 了 权重 w ， 这 和 一 般 的 梯度 下 降 学 习 规 则 相同 。 这 种 调整 有 时 
称 作 权重 衰减 ， 因 为 它 使 得 权重 变 小 。 粗 略 地 看 ， 这 样 会 导致 权重 不 断 下 降 到 0， 但 实际 并 非 如 
此 ， 因 为 如 果 这 样 导 致 原始 代价 函数 中 的 权重 下 降 ， 其 他 项 可 能 会 让 权重 增加 。 














这 就 是 梯度 下 降 算法 的 工作 原理 , 那么 随机 梯度 下 降 算 法 呢 ? 正如 在 没有 正则 化 的 随机 梯度 
下 降 算 法 中 ， 可 以 通过 平均 m 个 训练 样本 的 小 批量 来 估计 6C, /6w ， 为 了 实现 随机 梯度 下 降 ， 正 
则 化 学 习 规则 就 变 成 如 下 形式 ， 请 参考 方程 (20): 


入 I (93) 











其 中 求 和 是 对 小 批量 中 的 训练 样本 x 进行 的 ， 而 C, 是 每 个 训练 样本 的 非 正则 化 代价 。 这 其 
实 和 之 前 一 般 的 随机 梯度 下 降 学 习 规 则 相同 , 除了 有 一 个 权重 下 降 因 子 1- 世 。 最后, 完整 起 见 ， 
给 出 偏 置 的 正则 化 的 学 习 规则 ， 当 然 ， 和 之 前 的 非 正 则 化 的 情形 是 一 致 的 ， 参 考 方 程 (21): 
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171 OC 
bp—>b-— = 94 
m > ob 下 





其 中 求 和 是 对 小 批量 中 的 训练 样本 x 进行 的 。 

















下 面 看 看 正则 化 给 神经 网 络 带 来 的 性 能 提升 。 这 里 使 用 的 神经 网 络 也 有 30 个 隐藏 神经 元 ， 小 
批量 大 小 为 10, 学 习 率 为 0.5, 运用 交叉 焙 , 但 会 使 用 正则 化 参数 4 = 0.1 。 注 意 ,代码 中 使 用 的 变 
量 名 字 为 Imbda， 因 为 在 Python 中 lambda 是 关键 字 ， 有 着 其 他 含义 。 这 里 会 再 次 使 用 test_data， 
而 不 是 validation_data。 严 格 地 讲 ， 应 当 使 用 validation_data， 前 面 已 经 讲 过 了 ， 这 里 这 样 做 ， 

















>>> 
交 沪 


Ve 

















是 便于 和 非 正则 化 的 结果 进行 对 比 。 你 可 以 轻松 地 调整 为 validation_data， 结 果 是 相似 的 。 


import mnist loader 
training data, validation data, test data = \ 


. Mnis 


bop 
>>> 
>>> 
>>> 


t loader.1oad data wrapper() 


import network2 
net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost) 


net. 


arge weight initializer() 


net.SGD(training data[ :1000]，400，10，0.5， 
. evaluation data=test data, lmbda = 0.1， 


. moni 


. moni 


tor evaluation cost=True, monitor evaluation accuracy=True, 





tor training cost=True, monitor training accuracy=True) 


训练 集 上 的 代价 持续 下 降 ， 和 前 面 非 正则 化 的 情况 规律 相同 ， 如 图 3-14 所 示 "。 


训练 数据 集 上 的 代价 

















GD 此 幅 以 及 下 两 幅 图 由 程序 overfitting.py 生成 。 
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但 是 这 次 测试 集 上 的 准确 率 在 400 轮训 练 内 持续 提高 ， 如 图 3-15 所 示 。 
测试 数据 集 上 的 准确 率 (%) 











200 250 300 350 


轮 数 
图 3-15 = 


显然 ,使 用 正则 化 能 够 解决 过 拟 合 问题 ， 而 且 准 确 率 相当 高 ， 最 高 达到 了 87.10%， 相 较 之 
前 的 82.27% 进步 明显 。 因 此 ， 几 乎 可 以 确信 在 400 轮训 练 之 后 持续 训练 会 有 更 好 的 结果 。 实 践 
表明 ， 正 则 化 增强 了 神经 网 络 的 泛 化 能 力 ， 能 显著 降低 过 拟 合 的 影响 。 














如 果 跳 出 仅 用 1000 幅 训练 图 像 的 场景 ， 转 而 用 所 有 50 000 幅 图 像 的 训练 集 ， 会 发 生 什么 ? 
当然 , 之 前 已 经 看 到 大 规模 数据 上 的 过 拟 合 其 实 不 那么 明显 , 那么 正则 化 能 否 起 到 相应 的 作用 呢 ? 
保持 超 参数 和 之 前 的 相同 : 训练 30 轮 ， 学 习 率 为 0.5， 小 批量 大 小 为 10， 但 这 里 需要 改变 正则 
化 参数 ， 因 为 训练 数据 的 规模 已 经 从 n=1000 变 成 了 n=50 000 ， 这 会 改变 权重 衰减 因子 1- 人 2 。 
如 果 持 续 使 用 4 = 0.1 就 会 产生 很 小 的 权重 衰减 ， 进 而 会 减弱 正则 化 的 效果 。 可 以 通过 修改 为 
4 =5.0 来 补偿 这 种 下 降 。 


下 面 训练 神经 网 络 ， 重 新 初始 化 权重 。 








>>> net.large weight initializer() 

>>> net.SGD(training data, 30, 10, 0.5, 

.. evaluation data=test data, lmbda = 5.0, 

.. Monitor evaluation accuracy=True, monitor training accuracy=True) 


结果 如 图 3-16 所 示 。 
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测试 数据 集 上 的 准确 率 〈%) 
训练 数据 集 上 的 准确 率 (%) 














这 个 结果 很 不 错 。 第 


96.49% ， 这 是 不 小 的 进步 
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图 3-16 ( 见 彩 插 











然 差距 仍 较 大 ， 但 是 在 降低 过 拟 合 上 已 经 取得 了 显著 进步 。 


， 测 试 集 上 的 分 类 准确 率 在 使 用 正则 化 后 有 了 提升 ， 从 95.49% 到 了 
。 第 二 , 可 以 看 到 训练 数据 和 测试 数据 上 结果 之 间 的 差距 也 缩小 了 。 


Pa 
里 





最 后 ， 看 看 在 使 用 100 个 隐藏 神经 元 和 正则 化 参数 4 = 5.0 时 的 测试 分 类 准确 率 。 这 里 不 会 





给 出 详细 分 析 ， 只 是 看 看 使 用 一 些 技巧 〈《 交 叉 焙 函数 和 L2 正则 化 ) 能 够 达到 多 高 的 准确 率 。 


>>> net = network2.Network([784, 100, 10], cost=network2.CrossEntropyCost) 


>>> net.large weight initializer() 
>>> net.SGD(training data, 30, 10, 0.5, lmbda=5.0, 
.. evaluation data=validation data, 


.. Monitor evaluation accuracy=True) 


最 终 验 证 集 上 的 准确 率 达 到 了 97.92%， 与 30 个 隐藏 神 经 元 的 情况 相 比 是 较 大 的 跃升 。 实 际 
上 ， 稍 做 改变 ， 以 7=0.1 和 4 = 5.060 训练 60 轮 ， 就 能 突破 98%， 达 到 98.04% 的 分 类 准确 率 。 
就 152 行 代码 而 言 ， 效 果 很 不 错 了 1! 








前 面 把 正则 化 描述 为 一 种 缓解 过 拟 合并 提高 分 类 准确 率 的 方法 ,实际 上 ,这 不 是 仅 有 的 好 处 。 
实践 表明 ， 对 于 MNIST 图 像 分 类 问题 ,使 用 不 同 的 (随机 的 ) 权重 初始 化 多 次 训练 神经 网 络 ， 














非 正则 化 的 神经 网 络 会 偶尔 卡 住 , 明显 困 在 代价 函数 的 局 部 最 小 值 处 , 结果 就 是 不 同 的 运行 结 





会 相差 很 大 。 对 比 看 来 ， 正 则 化 的 神经 网 络 的 结果 更 具 重 复 性 。 



































为 何 会 这 样 ? 经验 所 见 ， 如果 代价 函数 是 非 正则 化 的 , 那么 权重 向 量 的 长 度 可 能 会 增加 ， 而 
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其 他 地 方 保 持 不 变 。 随 着 时 间 的 推移 ， 这 会 导致 权重 向 量变 得 非常 大 ,进而 会 使 得 权重 向 量 或 多 
或 少 在 同一 个 方向 上 卡 住 ， 因 为 长 度 很 长 时 梯度 下 降 的 变化 仅仅 会 在 那个 方向 引发 微小 的 改变 。 
这 个 现象 让 学 习 算法 难以 有 效 地 探索 权重 空间 ， 最 终 导致 很 难 找到 代价 函数 的 最 小 值 。 








3.2.2 为何 正 则 化 有 助 于 减轻 过 拟 合 


前 面 讲 到 在 实践 中 正则 化 能 够 减轻 过 拟 合 , 但 未 讨论 背后 的 原因 。 通 常 的 解释 是 : 在 某 种 程 
度 上 小 的 权重 意味 着 复杂 性 更 低 , 也 就 能 对 数据 给 出 一 种 更 简单 却 更 有 力 的 解释 , 因此 应 该 优先 
选择 。 原 因 虽 然 很 简单 , 但 是 暗藏 了 一 些 可 能 会 令 人 困惑 的 因素 。 下 面 将 这 个 解释 细 化 ,仔细 研 
究 一 下 。 首 先 对 一 个 简单 的 数据 集 建立 模型 ， 如 图 3-17 所 示 。 










































































图 3-17 


这 其 实 是 在 研究 某 种 真实 的 现象 ，x 和 y 代表 真实 数据 。 我 们 的 目标 是 训练 一 个 模型 来 预测 
关于 x 的 函数 。 可 以 使 用 神经 网 络 来 构建 这 个 模型 , 但 先 尝试 简单 做 法 : 用 一 个 多 项 式 来 拟 合 
数据 。 这 样 做 的 原因 是 相 比 神经 网 络 ， 多 项 式 更 清晰 易 懂 。 一旦 理解 了 使 用 多 项 式 的 场景 ,对 于 
神经 网 络 可 如 法 炮制 。 图 3-18 中 有 10 个 点 ， 可 以 找到 唯一 的 9 阶 多 项 式 y= aoxz ?+ax +…+a, 
来 完全 拟 合 数据 。 多 项 式 的 图 像 如 图 3-18 所 示 ”。 




































































Q@ 这 里 没有 明确 列 出 这 些 系 数 ， 用 NumPy 的 polyfit 可 以 找到 。 
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图 3-18 


这 给 出 了 一 个 准确 的 拟 合 ， 而 使 用 线性 模型 y= 2x 也 能 实现 很 好 的 拟 合 ， 如 图 3-19 所 示 。 





图 3-19 


哪个 模型 更 好 ? 哪个 可 能 更 真实 ? 哪个 模型 更 可 能 泛 化 到 有 同样 现象 的 其 他 样本 ? 





这 些 问 题 都 很 难 回答 。 实 际 上 ,如果 没有 关于 真实 现象 背后 的 更 多 信息 ,并 不 能 准确 回答 这 
问题 , 但 可 以 考虑 两 种 可 能 的 情况 : (1) 9 阶 多 项 式 实际 上 是 完全 描述 了 真实 情况 的 模型 ,最 终 
能 够 很 好 地 泛 化 ，(2) 正确 的 模型 是 y=2x ,但 存在 由 测量 误差 导致 的 额外 噪声 ， 使 得 模型 无 
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法 准确 拟 合 。 


无 法 先 验 地 判断 哪个 是 正确 的 (或 许 还 有 其 他 可 能 存在 )。 从 逻辑 上 讲 ， 这 些 都 可 能 出 现 ， 
而 且 它们 之 间 的 差异 并 非 微不足道 。 在 所 给 的 数据 上 ， 两 个 模型 的 表现 相差 不 大 , 但 是 假设 我 们 
想 预 测 某 个 超过 图 中 所 有 x 所 对 应 的 y 值 ， 两 个 模型 给 出 的 结果 肯定 存在 极 大 的 差异 ， 因 为 9 阶 
多 项 式 模型 肯定 会 被 x 这 一 项 主导 ， 而 线性 模型 仍 呈 现 线性 增长 。 











一 种 科学 观点 是 除非 不 得 已 , 否则 应 该 采用 更 简单 的 解释 。 在 找到 一 个 似乎 能 够 解释 很 多 数 
据 样本 的 简单 模型 时 , 我 们 往往 会 激动 地 以 为 发 现 了 规律 。 总 之 , 简单 的 解释 似乎 不 大 可 能 是 偶 
然 出 现 的 。 我 们 怀疑 模型 一 定 会 体现 出 关于 现象 的 某 些 内 在 真理 。 就 像 前 面 的 例子 ， 线 性 模型 
y=2x 加 噪声 7= aox? + ax*+… 肯定 比 多 项 式 更 有 可 能 ,如果 简 单 性 是 偶然 出 现 的 就 很 令 人 详 异 ， 
因此 我 们 认为 线性 模型 加 噪声 表达 出 了 一 些 潜 在 的 真理 。 从 这 个 角度 看 , 多项式 模型 仅仅 学 到 了 
局 部 噪声 的 影响 。 因 此 , 尽管 多 项 式 对 于 这 些 特 定 的 数据 点 表现 得 很 好 , 但 是 模型 最 终 会 在 对 未 
知 数据 的 泛 化 上 出 现 问题 ， 所 以 线性 模型 的 预测 能 力 更 强 。 


















































以 这 个 视角 来 看 神经 网 络 。 假 设 神经 网 络 的 权重 大 多 很 小 , 这 最 可 能 出 现在 正则 化 的 神经 网 
络 中 。 更 小 的 权重 意味 着 神经 网 络 的 行为 不 会 因为 一 个 输入 的 改变 而 显著 改变 , 这 使 得 正则 化 的 
中 经 网 络 不 易学 习 局 部 噪声 的 影响 。 可 以 把 它 看 作 这 样 一 种 方式 : 让 个 别 情况 不 会 太 影响 神经 网 
络 输出 。 相 反 ， 正 则 化 的 神经 网 络 学 习 如 何 对 整个 训练 集中 经 常 出 现 的 情况 做 出 反应 。 与 之 相 
对 , 拥有 大 权重 的 神经 网 络 可 能 会 因为 输入 的 微小 改变 而 在 行为 上 发 生 较 大 的 改变 , 所 以 非 正 则 
化 的 神经 网 络 可 以 使 用 大 的 权重 来 学 习 训 练 数据 中 的 噪声 包含 大 量 信息 的 复杂 模型 。 简 而 言 之 ， 
正则 化 的 神经 网 络 受 限于 根据 训练 数据 中 的 常见 模式 来 构造 相对 简单 的 模型 , 因而 能 够 抵抗 训练 
数据 中 噪声 特征 的 影响 。 这 可 以 让 神经 网 络 对 见 到 的 现象 进行 实际 的 学 习 , 并 能 够 根据 学 到 的 知 
识 更 好 地 泛 化 。 
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因此 , 倾向 于 更 简单 的 解释 其 实 并 不 可 靠 。 有 时 人 们 将 这 种 想法 称 为 奥 卡 姆 剃刀 原则 ,， 并 将 
其 当成 某 种 科学 原理 来 应 用 。 但 这 本 不 是 一 般 的 科学 原理 , 也 没有 任何 先 验 的 逻辑 原因 证 明 简 单 
的 解释 优 于 复杂 的 解释 。 实 际 上 ， 有 时 复杂 的 解释 是 正确 的 。 




















下 面 举 两 个 “复杂 却 正确 ”的 例子 。20 世纪 40 年 代 ， 物 理学 家 马 塞 尔 ' 沙 因 声称 他 发 现 了 
新 的 粒子 。 他 所 任职 的 通用 电气 公司 非常 高 兴 , 大 力 宣传 该 发 现 , 但 物理 学 家 汉 斯 ， 贝 特 对 此 抱 
有 怀疑 的 态度 。 贝 特 拜 访 沙 因 ， 沙 因 向 他 展示 新 粒子 轨迹 的 plate， 但 是 贝 特 在 每 一 张 图 表 上 都 
发 现 了 一 些 问 题 ， 这 些 问 题 暗 示 着 数据 应 该 被 丢弃 。 最 后 ， 沙 因 向 贝 特 展 示 了 一 张 看 起 来 不 错 的 
图 表 。 贝 特 说 这 可 能 只 是 统计 上 的 巧合 。 沙 因 说 :“ 是 的 ， 但 即使 根据 你 自己 的 公式 ， 这 是 巧合 
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的 概率 也 只 有 1/5。” 贝 特 说 :“ 但 我 们 已 经 看 过 这 5 个 plate 了 。” 最 终 沙 因 说 :“ 但 是 在 我 的 plate 
中 ， 每 个 好 的 plate， 每 个 好 的 场景 ， 你 都 采用 了 不 同 的 理论 进行 解释 ， 而 我 的 一 种 假设 可 以 解 
释 所 有 的 plate， 说 明 它们 是 新 的 粒子 。” 贝 特 回答 说 :“ 你 和 我 的 解释 之 间 的 唯一 差别 就 是 你 的 
是 错 的 ， 而 我 所 有 的 观点 都 是 正确 的 。 你 的 单一 解释 是 错误 的 ， 我 的 多 重 解 释 是 正确 的 。” 后续 
的 研究 证 实 了 贝 特 的 想法 是 正确 的 ， 而 沙 因 的 “粒子 ”不 存在 "。 

































































再 来 看 一 个 例子 。1859 年 ， 天 文学 家 于 尔 班 勒 . 韦 里 耶 观测 到 水 星 并 没有 按照 牛顿 万 有 
引力 所 说 的 轨迹 运转 ， 与 之 存在 很 小 的 偏差 ， 当 时 的 解释 是 牛顿 力学 需要 进行 一 些微 小 的 改动 。 
1916 年 ， 爱 因 斯 坦 提出 的 广义 相对 论 可 以 更 好 地 解释 这 种 偏差 .该 理论 和 牛顿 引力 体系 相差 很 
大 ， 基 于 更 复杂 的 数学 。 尽 管 更 复杂 , 但 如 今 爱 因 斯 坦 的 解释 被 视 作 正确 的 ， 而 牛顿 力学 即使 做 
出 一 些 调整 ， 仍 是 错误 的 。 众 所 周知 ， 爱 因 斯 坦 的 理论 不 仅 解释 了 该 问题 ， 还 能 完美 解释 牛顿 力 
学 无 法 解释 的 其 他 很 多 问题 。 另 外 , 惊人 的 是 , 爱 因 斯 坦 的 理论 准确 地 预测 了 牛顿 力学 没 能 预测 
的 一 些 现象 , 这 些 现象 其 实在 先前 的 时 代 是 观测 不 到 的 。 如 果 仅 仅 以 简单 性 作为 判断 模型 是 否 合 
理 的 基础 ， 那 么 牛顿 力学 的 一 些 改 进 理论 可 能 更 合理 。 




















































































































这 些 故事 包含 了 三 点 启示 : 第 一 , 确定 两 种 解释 中 哪 种 “更 简单 ”其 实 是 一 项 相当 微妙 的 工 
作 ; 第 二 ， 即 使 可 以 做 出 这 样 一 种 判断 ， 也 要 慎 用 简单 性 作为 指导 ; 第 三 ， 对 模型 来 说 ,真正 的 
测试 重点 不 是 简单 性 ， 而 是 它 在 新 场景 中 对 新 情况 的 预测 能 力 。 

















所 以 , 我 们 应 当 记 住 一 点 : 经 验 表明 , 正则 化 的 神经 网 络 往往 比 非 正则 化 的 神经 网 络 具 有 更 
强 的 泛 化 能 力 , 所 以 本 书 余下 内 容 会 频繁 使 用 正则 化 技术 。 前面 的 故事 只 是 为 了 说 明 目 前 没有 理 
论 能 够 解释 正则 化 有 助 于 神经 网 络 泛 化 的 原因 。 实 际 上 ， 研 究 人 员 仍 在 研究 不 同 的 正则 化 方法 ， 
比较 它们 的 表现 ， 并 分 析 为 何不 同 的 方法 效果 不 同 。 可 以 将 正则 化 看 作 “ 野 路 子 ”。 尽 管 效果 不 
错 ， 但 并 没有 一 套 完整 的 理论 解释 其 原理 ， 它 们 仅仅 是 没有 科学 依据 的 经 验 法 则 。 


















































更 深层 同时 有 关 科 学 的 关键 问题 是 如 何 泛 化 。 正 则 化 在 计算 上 的 神奇 助 益 , 有 利于 神经 网 络 
更 好 地 泛 化 ,但 其 泛 化 机 制 不 明 ， 最 佳 方法 也 不 确定 。 


这 实在 令 人 困扰 ， 因 为 在 日 常生 活 中 ， 人 类 很 擅长 泛 化 。 给 儿童 几 幅 大 象 的 图 片 ， 他 们 能 快 
速 学 会 辨认 其 他 大 象 。 当 然 , 偶尔 他 们 也 会 搞 错 ， 可 能 将 犀牛 误 认 为 大 象 , 但 一 般 相当 准确 。 人 
的 大 脑 相 当 于 一 个 系统 ,拥有 大 量 自由 变量 , 在 接收 少量 训练 图 像 后 , 该 系统 就 能 学 会 如 何 泛 化 
到 其 他 图 像 。 在 某 种 程度 上 ， 人 类 大 脑 的 正则 化 水 平 非常 高 ! 但 其 机 制 目 前 还 不 得 而 知 。 若 干 年 
后 , 我 们 也 许 能 够 研究 出 更 强大 的 技术 来 对 神经 网 络 进行 正则 化 , 这 些 技术 让 神经 网 络 在 小 型 训 






























































中 该 故事 由 物理 学 家 理 查 德 . 费 曼 和 历史 学 家 查尔斯 . 韦 纳 在 一 次 采访 中 讲述 。 
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练 集 上 也 能 学 到 强大 的 泛 化 能 





实际 上 , 我 们 的 神经 网 络 好 于 预期 。 拥 有 100 个 隐藏 神经 元 的 神经 网 络 ， 其 参数 接近 80 000 
个 ， 而 训练 集 仅 仅 有 50 000 幅 图 像 ， 好 似 用 一 个 80 000 阶 的 多 项 式 来 拟 合 50 000 个 数据 点 。 该 
神经 网 络 肯定 会 严重 过 拟 合 ， 实 际 上 却 泛 化 得 很 好 。 为 什么 ? 这 一 点 不 太 好 理解 。 对 此 有 个 猜 
想 ?: 梯度 下 降 算 法 的 学 习 过 程 有 一 种 自 正则 化 的 效应 。 这 是 一 种 意外 的 好 处 ， 但 不 了 解 其 本 质 
依然 让 人 不 安 。 后 文 仍 会 务实 地 应 用 正则 化 技术 ， 以 此 提升 神经 网 络 的 表现 。 
































回 到 前 面 未 解释 的 一 处 细节 : L2 正则 化 没有 限制 偏 置 。 当 然 ， 对 正则 化 的 过 程 稍 做 调整 就 
可 以 规范 偏 置 。 然 而 实践 表明 ， 这样 的 调整 并 不 会 显著 改变 结果 ， 因 此 在 某 种 程度 上 ， 是否 对 偏 
置 进行 正则 化 其 实 只 是 一 种 习惯 。 然 而, 需要 注意 的 是 ,大 的 偏 置 并 不 会 像 大 的 权重 那样 会 让 神 
经 元 对 输入 太 过 敏感 ,所 以 无 须 太 过 担心 大 的 偏 置 会 导致 神经 网 络 学 习 训练 数据 中 的 噪声 。 此 外 ， 
大 的 偏 置 能 让 神经 网 络 更 灵活 ， 因 为 可 以 让 神经 元 更 容易 饱和 ,这 通常 是 理想 的 效果 。 因 此 , 通 
常 不 会 对 偏 置 进 行 正则 化 。 


















































3.2.3 其 他 正则 化 技术 


除了 L2 正则 化 外 ,还 有 很 多 正则 化 技术 。 实 际 上 ， 由 于 数量 众多 ， 这 里 不 会 尽 述 。 下 面 简 
要 介绍 能 减轻 过 拟 合 的 其 他 3 种 方法 : LI 正则 化 、Dropout 和 人 为 扩展 训练 数据 。 这 里 不 会 像 前 
面 讲解 得 那么 深入 ， 而 旨 在 概述 主要 的 思想 ， 展 示 正 则 化 技术 的 多 样 性 。 





L1 正则 化 :该 方法 是 给 非 正则 化 的 代价 函数 加 上 一 个 权重 绝对 值 的 和 1: 
ee ME (95) 

ny 
直观 而 言 ， 这 和 L2 正则 化 很 相似 ， 惩 罚 大 的 权重 ， 倾 向 于 让 神经 网 络 优先 选择 小 的 权重 。 


当然 ，LI 正则 化 和 L2 正则 化 并 不 相同 ， 所 以 不 应 期 望 LI 正则 化 会 有 完全 相同 的 结果 。 下 面 分 
析 二 者 的 不 同 。 





首先 研究 代价 函数 的 偏 导数 。 对 方程 (95) 求 导 可 得 : 


6C_6c 4 ot (96) 
n 


Ow Ow 








QD Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner. Gradient-Based Learning Applied to Document Recognition, 
1998. 
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其 中 sgn(w) 是 w 的 正 负 号 ， 即 w 是 正 数 时 为 +1，w 是 负数 时 为 -1。 使 用 该 表达 式 ， 可 以 轻松 地 
修改 反 向 传播 ， 从 而 使 用 基于 LI 正则 化 的 随机 梯度 下 降 算法 进行 学 习 。L1 正则 化 的 神经 网 络 的 
更 新 规则 如 下 : 








w—>w’ = Ws 一 7 0 (97) 
n Ow 


如 前 所 示 ， 可 以 用 一 个 小 批量 的 均值 来 估计 6C /6w。 参见 方程 (93)， 对比 L2 正则 化 的 更 新 
规则 ， 有 : 








w w= ul! 2 RC (98) 
n 





在 两 种 情形 下 ， 正 则 化 的 效果 是 缩小 权重 。 这 符合 常理 ,两 种 正则 化 都 惩罚 大 的 权重 , 但 权 
重 缩小 的 方式 不 同 。 在 L1 正则 化 中 ,权重 通过 一 个 常量 向 0 缩小 ; 在 工 2 正则 化 中 , 权重 通过 一 
个 和 w 成 比例 的 量 进行 缩小 。 因 此 ， 当 一 个 特定 的 权重 绝对 值 | w| 很 大 时 ，L1l 正则 化 的 权重 缩 
小 得 远 比 L2 正则 化 少 得 多 ， 而 当 一 个 特定 的 权重 绝对 值 | w| 很 小 时 ，L1 正则 化 的 权重 缩小 得 要 
比 L2 正则 化 多 得 多 。 最 终 的 结果 就 是 , L1 正则 化 倾向 于 将 神经 网 络 的 权重 聚集 在 相对 少量 的 重 
要 连接 上 ， 而 其 他 权重 会 趋向 0。 









































前 面 的 讨论 其 实 忽 略 了 一 个 问题 ， 当 w= 0 时， 偏 导 数 6C /Ow 未 定义 。 原 因 是 函数 |w| 在 
w=0 时 有 个 “直角 ”， 导 数 其 实 是 不 存在 的 。 但 没有 关系 ， 下 面 就 在 w=0 处 应 用 通常 的 ( 非 正 
则 化 的 ) 随机 梯度 下 降 学 习 规则 。 这 应 该 不 会 有 什么 问题 ,直观 而 言 ， 正 则 化 的 效果 就 是 缩小 权 
重 , 显然 , 已 经 是 0 的 权重 无 法 再 缩小 了 。 具 体 而 言 ， 我 们 将 使 用 方程 (96) 和 方程 (97) 并 约定 
sgn(0) =0 ， 这 样 就 能 以 合理 严谨 的 规则 来 使 用 Ll 正则 化 实现 随机 梯度 下 降 了 。 









































Dropout 《随机 丢弃 ): 这 是 一 种 相当 激进 的 技术 。 和 Ll 正则 化 及 L2 正则 化 不 同 ， 该 技术 
并 不 依赖 修改 代价 函数 ， 而 会 改变 神经 网 络 本 身 。 在 介绍 它 为 何 有 效 及 其 作用 前 ， 先 讲解 它 的 基 
本 工作 机 制 。 























假设 我 们 尝试 训练 一 个 神经 网 络 ， 如 图 3-20 所 示 。 
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假设 有 训练 输入 x 和 对 应 的 目标 输出 y， 我 们 通常 会 在 神经 网 络 中 前 向 传播 x， 然 后 反 向 传 
播 来 确定 对 梯度 的 作用 。 使 用 Dropout 的 话 ， 过 程 就 不 同 了 。 开 始 时 随机 暂时 删除 神经 网 络 中 一 
半 的 隐藏 神经 元 ， 而 输入 层 和 输出 层 的 神经 元 保持 不 变 。 这 样 最 终 会 得 到 如 图 3-21 所 示 的 神经 
网 络 。 注 意 那 些 被 随机 丢弃 的 神经 元 ， 即 那些 暂时 被 删除 的 神经 元 ， 图 中 用 虚 圈 表示 。 


























图 3-21 
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我 们 前 向 传播 输入 x， 途 经 修改 过 的 神经 网 络 ， 然 后 反 向 传播 结果 ， 同 样 经 过 这 个 修改 过 的 
神经 网 络 。 在 一 个 小 批量 的 若干 样本 上 进行 这 些 操作 后 ,更 新 相关 的 权重 和 侦 置 ， 然 后 重复 该 过 
程 。 首 先 重 置 随机 丢弃 的 神经 元 ， 然 后 随机 删除 隐藏 神经 元 的 一 个 新 的 子 集 ， 估 计 不 同 的 小 批量 
的 梯度 ， 然 后 更 新 权重 和 偏 置 。 









































通过 不 断 地 重复 , 神经 网 络 学 到 了 一 个 权重 和 
数 隐 藏 神经 元 被 随机 丢弃 的 情形 下 学 到 的 。 当 实际 运行 整个 神 












































裔 置 的 集合 。 当 然 , 这 些 权 重 和 偏 置 也 是 在 半 

















经 网 络 时 ,两 们 的 隐藏 神经 元 将 被 





激活 。 为 了 抵消 ， 我 们 将 隐藏 神经 元 输出 的 权重 减 半 。 


这 个 随机 丢弃 过 程 可 能 




















起 来 奇怪 , 像 是 临时 安排 的 。 为 什么 这 样 的 方法 能 够 实现 正则 化 呢 ? 





为 了 解释 其 行为 ， 先 思考 没有 采用 Dropout 的 标准 训练 方式 。 
的 神经 网 络 。 当 然 ， 神 经 网 络 的 初始 状态 可 能 不 同 , 最 终 的 结果 也 会 有 一 些 差 异 。 出 现 这 种 情况 


时 ,可 以 通过 平均 或 者 投票 的 方式 来 确定 接受 哪个 输出 。 例 如 训练 了 5 个 神经 网 络 ， 其 中 3 个 把 








一 个 数字 分 类 为 “3”, 那 该 数字 很 可 能 就 是 “3”， 另 外 两 个 神 
方式 通常 能 有 效 减 轻 过 拟 合 〈 不 过 代价 高 昂 )， 原因 是 不 同 的 神经 网 络 可 能 会 以 不 同 的 方式 过 拟 



































合 ， 平 均 法 可 能 有 助 于 缓解 过 拟 合 。 























设想 使 用 相同 的 训练 数据 训练 不 同 














经 网 络 可 能 犯 了 错误 。 这 种 平均 的 











这 和 Dropout 有 什么 关系 呢 ?” 当 随机 丢弃 不 同 的 神经 元 集合 时 ， 有 点 像 在 训练 不 同 的 神经 网 
络 , 因此 随机 丢弃 过 程 相当 于 把 不 同 神经 网 络 的 效果 平均 了 。 不 同 的 神经 网 络 以 不 同 的 方式 过 拟 
合 ， 所 以 应 用 了 Dropout 的 神经 网 络 能 减轻 过 拟 合 。 


早期 使 用 这 项 技术 的 论文 "给 出 了 一 个 相关 的 启发 性 解释 :“ 因 为 神经 元 不 能 依赖 其 他 特定 的 



































神经 元 ,所 以 该 技术 其 实 减少 了 神经 元 间 复 杂 的 互 适应 ， 而 强 
集中 更 为 稳固 的 特征 。 换言之 ,如 果 将 神经 网 络 看 作 一 个 负责 做 出 预测 的 模型 ，Dropout 就 有 助 





制 学 习 那 些 在 神经 元 的 不 同 随机 子 





于 确保 模型 应 对 部 分 情形 缺失 的 稳健 性 。 这 样 看 来 ，Dropout 和 L1 正则 化 及 L2 正则 化 有 相似 之 


处 ， 它 也 倾向 于 更 小 的 权重 ， 最 后 使 得 神 





当然 , Dropout 的 真正 价值 在 于 能 显著 提升 神经 网 络 的 性 
任务 , 论文 作者 在 MNIST 手写 数字 分 类 上 应 用 Dropout , 使 用 
通 前 馈 神 经 网 络 。 这 篇 论文 提 到 之 前 最 好 的 结 


















































经 网 络 对 缺失 单个 连接 的 场景 更 稳健 。 





FE 能 。 原 论文 "介绍 了 将 其 应 用 于 不 同 
绍 


了 一 个 和 本 书 之 前 介绍 的 类 似 的 普 


是 在 测试 集 上 准确 率 达 到 了 98.4%。 他们 综合 运 


用 了 Dropout 和 L2 正则 化 ， 将 准确 率 提高 到 了 98.7%。 类 似 地 ，Dropout 在 其 他 任务 上 也 取得 了 





QD Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton. ImageNet Classification with Deep Convolutional Neural Networks, 2012. 
© Geoffrey Hinton、 Nitish Srivastava、Alex Krizhevsky 等 人 于 2012 和 
preventing co-adaptation of feature detectors 讨论 了 本 书 未 讲 到 的 许多 























FE 发 表 的 论文 Improving neural networks by 
细微 之 处 。 
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一 定 成 效 ， 包 括 图 像 识别 、 语 音 识别 、 自 然 语 言 处 理 。Dropout 在 训练 大 规模 深度 神经 网 络 时 万 
其 有 用 ， 因 为 在 这 样 的 神经 网 络 中 过 拟 合 问题 往往 特别 突出 。 





人 为 扩展 训练 数据 :前 面 看 到 使 用 1000 幅 MNIST 训 练 图 像 时 分 类 准确 率 下 降 到 了 85% 左 右 。 
这 并 不 奇怪 , 因为 训练 数据 减少 意味 着 神经 网 络 接触 到 的 人 类 手写 数字 中 的 变化 更 少 了 。 下 面 训 
练 拥有 30 个 隐藏 神经 元 的 神经 网 络 ， 使 用 不 同 的 训练 数据 集 ， 看 看 表现 的 变化 情况 。 我 们 使 用 
的 小 批量 大 小 为 10， 学 习 率 7 = 0.5 ,正则 化 参数 4 = $.0 ， 并 使 用 交叉 炉 代 价 函 数 。 在 全 部 训练 
数据 集 上 训练 30 轮 ， 然 后 随 着 训练 数据 量 的 下 降 按 比例 增加 训练 轮 数 。 为 了 确保 权重 衰减 因子 
在 训练 数据 集 上 相同 ， 全 部 训练 集 上 会 采用 正则 化 参数 4 = $.0 ， 然 后 在 使 用 更 小 的 训练 集 时 按 
比例 降低 4 值 ， 如 图 3-22 所 示 ”。 
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图 3-22 
如 图 3-22 所 示 , 在 使 用 更 多 训练 数据 后 分 类 准确 率 提 升 了 很 多 。 根据 这 个 趋势 , 数据 越 多 ， 


提升 越 多 。 当 然 ， 训 练 后 期 学 习 过 程 已 经 接近 饱和 了 。 然 而 ， 如 果 使 用 对 数 作为 横 坐 标 ， 可 以 重 
画 此 图 ， 如 图 3-23 所 示 。 




















Qa 此 图 及 图 3-23 和 图 3-26 由 程序 more_data.py 生成 。 
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可 见 趋势 仍 一 路 走高 。 这 表明 如 果 使 用 大 量 训练 数据 一 一 百 万 甚至 十 亿 份 手写 样本 , 而 不 是 








仅仅 50 000 幅 一 一 那么 性 能 可 能 会 更 强 ， 即 使 是 用 简单 的 神经 网 络 也 会 如 此 。 
获取 更 多 的 训练 样本 其 实 是 很 好 的 想法 ， 然 而 这 个 方法 成 本 很 高 ， 实 践 中 很 难 实现 。 不 过 ， 


还 有 一 种 方法 能 够 取得 类 似 的 效果 , 那 就 是 人 为 扩展 训练 数据 。 假 设 使 用 一 幅 “5” 的 MNIST 训 


练 图 像 ， 如 图 3-24 所 示 。 


将 其 旋转 13" ， 如 图 3-25 所 示 。 
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图 3-23 






































图 3-24 














图 3-25 
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这 仍 会 被 识别 为 相同 的 数字 , 但 是 在 像素 层面 与 MNIST 训练 数据 中 的 任何 一 幅 图 像 都 不 同 。 
因此 将 这 样 的 样本 加 入 训练 数据 中 有 助 于 神经 网 络 学 习 如 何 分 类 数字 。 当 然 , 能 做 的 不 限于 只 增 
加 这 一 幅 图 像 ， 我 们 可 以 对 所 有 MNIST 训练 样本 通过 很 多 小 的 旋转 扩展 训练 数据 ， 然 后 基于 这 
些 数据 来 提升 神经 网 络 的 性 能 。 


这 个 想法 非常 棒 并 且 已 经 广泛 应 用 了 ， 下 面 看 看 一 篇 论文 "中 的 一 些 成 果 。 在 这 篇 论文 中 ， 
作者 对 MNIST 图 像 应 用 了 该 想法 的 儿 种 变化 形式 ， 其 中 一 种 神经 网 络 架构 其 实 和 前 面 讲 过 的 类 
似 一 一 一 个 拥有 800 个 隐藏 神经 元 的 前 僻 神 经 网 络 ， 使 用 交叉 佼 代价 函数 。 在 标准 的 MNIST 训 
练 数据 上 运行 该 神经 网 络 ， 分 类 准确 率 达 到 了 98.4%。 不 只 是 旋转 ， 他 们 还 通过 平移 和 扭曲 图 像 
来 扩展 训练 数据 。 在 扩展 后 的 数据 集 上 进行 训练 , 准确 率 提升 到 了 98.9%。 他 们 还 在 “弹性 扭曲 ” 
的 数据 上 进行 了 试验 ,这 是 一 种 模仿 手 部 肌肉 随机 拌 动 的 特殊 的 图 像 扭 曲 方 法 ,使 用 “弹性 扭曲 ” 
扩展 而 来 的 数据 ,分 类 准确 率 最 终 达 到 了 99.3%。 他 们 通过 训练 数据 的 各 种 变化 形式 来 丰富 神经 
网 络 的 经 验 。 


除了 手写 数字 识别 任务 , 这 种 想法 的 变化 形式 也 可 以 用 于 提升 对 其 他 学 习 任 务 的 表现 。 一 般 
通过 应 用 反映 现实 世界 变化 的 操作 来 扩展 训练 数据 。 这 些 方法 其 实 并 不 难 想 , 例如 构建 一 个 神经 
网 络 来 进行 语音 识别 , 人 类 甚至 可 以 在 有 背景 噪声 的 情况 下 识别 语音 , 因此 可 以 通过 增加 背景 噪 
声 来 扩展 训练 数据 。 同 样 ， 可 以 对 其 进行 加 速 和 减速 来 相应 地 扩展 数据 。 然 而 这 些 技术 并 不 总 是 
有 用 的 ， 例 如 与 其 在 数据 中 加 入 噪声 ,不 如 先 清除 数据 中 的 噪声 ， 这 样 可 能 更 有 效 。 当 然 ,， 在 可 
以 扩展 数据 时 ， 也 不 妨 为 之 。 








































































































练 习 
如 前 所 述 ， 扩 展 MNIST 训练 数据 的 一 种 方式 是 进行 一 些小 的 旋转 ， 那 么 进行 大 的 旋转 会 
出 现 什么 状况 呢 ? 











关于 大 规模 数据 及 其 对 分 类 准确 率 影响 的 题 外 话 : 下 面 看 看 神经 网 络 准确 率 随 训练 集 大 小 变 
化 的 情况 ， 如 图 3-26 所 示 。 











QD Patrice Simard, Dave Steinkraus, John Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document 
Analysis, 2003. 
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图 3-26 


假设 不 用 神经 网 络 ， 而 用 其 他 机 器 学 习 技 术 来 分 类 数字 ， 例 如 支持 向 量 机 (SVM )， 第 1 章 
简单 介绍 过 它 。 如 前 所 述 ， 不 熟悉 SVM 也 没有 关系 ， 这 里 不 会 深入 讨论 。 我 们 使 用 scikit-learn 
库 提 供 的 SVM 替换 神经 网 络 。SVM 模型 的 性 能 随 训练 数据 集 大 小 的 变化 情况 如 图 3-27 所 示 ， 
图 中 也 画 出 了 神经 网 络 的 结果 ， 以 方便 对 比 ”。 
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图 3-27 ( 见 彩 插 ) 








此 图 也 是 由 程序 more_data.py 生成 的 。 
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令 人 惊讶 的 是 ， 神 经 网 络 在 每 个 训练 规模 下 性 能 都 超过 了 SVM。 这 很 好 ! 你 对 细节 和 原理 
可 能 不 太 了 解 ， 因 为 我 们 直接 从 scikit-learn 中 调用 了 该 方法 ,而 前 面 深入 讲解 了 神经 网 络 。 更 微 
妙 和 更 有 趣 的 现象 其 实 是 ， 如 果 使 用 50 000 幅 图 像 训练 SYM， 那 么 实际 上 其 准确 率 ( 94.48% ) 
已 经 超过 了 使 用 5000 幅 图 像 的 神经 网 络 的 准确 率 ( 93.24% ), 换言之 , 更 多 的 训练 数据 可 以 抵消 
不 同 的 机 需 学 习 算 法 之 间 的 差距 。 






































更 有 趣 的 现象 也 出 现 了 。 假设 尝试 用 两 种 机 器 学 习 算 法 解决 问题 。 有 时 算法 A 在 一 个 训练 
集 上 的 表现 强 于 算法 B， 却 在 另 一 个 训练 集 上 弱 于 算法 B。 前 面 并 没有 出 现 这 种 情况 ， 因 为 这 
样 两 幅 曲线 图 中 会 出 现 交 叉 点 ， 而 这 里 并 没有 "。 对 于 “算法 A 是 否 优 于 算法 B”， 要 看 所 用 的 
训练 集 。 




















在 着 手 开发 或 者 阅读 研究 论文 时 , 需要 说 记 这 些 。 很 多 论文 聚焦 于 寻找 新 的 技巧 来 提升 在 标 
准 数据 集 上 的 表现 。 常 见 的 研究 声明 有 “我 们 的 先进 技术 在 标准 测试 集 Y 上 实现 了 百 分 之 和 的 
性 能 提升 "。 这 样 的 声明 很 有 趣 ， 不 过 我 们 必须 意识 到 那 是 在 特定 训练 数据 集 上 的 效果 。 设 想 那 
些 创建 了 基准 数据 集 的 人 们 得 到 了 更 多 研究 经 费 的 支持 , 这 样 就 能 获得 更 多 训练 数据 了 。 可 以 想 
见 , 他 们 的 先进 技术 所 带 来 的 性 能 提升 在 面 对 更 大 的 数据 集 时 可 能 就 不 复 存在 了 。 换言之 , 人 们 
标榜 的 提升 可 能 只 是 历史 的 偶然 。 因此 需要 记 住 , 尤其 在 实际 应 用 中 , 我 们 想 要 的 是 更 好 的 算法 
和 更 好 的 训练 数据 。 寻 找 更 好 的 算法 当然 很 好 ,但 要 确保 在 此 过 程 中 , 没有 放弃 对 更 多 、 更 好 的 
数据 的 追求 。 



































问 题 
( 研究 问题 ) 机 器 学 习 算 法 在 非常 大 的 数据 集 上 如 何 执行 ? 对 于 任何 给 定 的 算法 ， 其 实 定 
义 一 种 随 着 训练 数据 规模 变化 的 渐 近 性 能 是 一 种 很 自然 的 尝试 。 一 种 简单 粗糙 的 方法 就 是 拟 合 
前 面 图 中 的 趋势 ,然后 据 此 展开 推测 。 与 此 对 立 的 观点 是 拟 合 曲线 的 不 同方 式 会 展现 不 同 的 渐 
近 性 能 。 你 能 找到 拟 合 特 定 类 别 曲线 的 验证 方法 吗 ? 如 果 可 以 , 请 比较 不 同 的 机 器 学 习 算 法 的 
渐 近 性 能 。 

















小 结 : 至 此 就 介绍 完了 过 拟 合 和 正则 化 ,当然 ， 之 后 会 再 回顾 。 如 前 所 述 ， 过 拟 合 是 神经 网 
络 中 的 一 个 重要 问题 ,尤其 随 着 计算 机 越 来 越 强大 , 我们 可 以 训练 更 大 的 神经 网 络 ， 因 此 迫切 需 
要 强大 的 正则 化 技术 来 减轻 过 拟 合 ， 这 也 是 当前 研究 的 活跃 领域 。 




















QD Michele Banko, Eric Brill. Scaling to very very large corpora for natural language disambiguation, 2001. 
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3.3 ”权重 初始 化 


创建 好 神经 网 络 后 , 需要 对 权重 和 偏 置 进 行 初始 化 。 前 面 一 直 根 据 第 1 章 所 讲 内 容 进 行 初始 
化 ， 即 根据 独立 高 斯 随机 变量 来 选择 权重 和 偏 置 ， 归 一 化 后 均值 为 0， 标 准 差 为 1。 这 个 方法 效 
果 还 不 错 , 但 是 非常 特别 , 值得 深入 探讨 , 看 看 能 否 找到 一 些 更 好 的 方法 来 设置 初始 的 权重 和 偏 
置 ， 也 许 能 提高 神经 网 络 的 学 习 速 度 。 






































实践 表明 有 比 归 一 化 的 高 斯 分 布 更 好 的 初始 化 方法 ,假设 使 用 一 个 有 大 量 输 入 神经 元 的 神经 
网 络 ， 比 如 有 1000 个 ， 而 且 已 经 使 用 归 一 化 的 高 斯 分 布 初始 化 了 连接 第 一 个 隐藏 层 的 权重 。 现 
在 关注 这 一 层 的 连接 权重 ,忽略 神经 网 络 的 其 他 部 分 ， 如 图 3-28 所 示 。 












































图 3-28 


简单 起 见 ， 假 设 使 用 训练 输入 x ， 其 中 一 半 的 输入 神经 元 值 为 1， 另 一 半 值 为 0。 下 面 的 论 
点 更 具 普 适 性 ， 但 你 可 以 从 这 种 特殊 情况 中 掌握 要 点 。 考 虑 隐藏 神经 元 输入 的 带 权 和 
== 忆 ,wz +b， 其 中 500 项 消去 了 ， 因 为 对 应 的 输入 x 为 0。z 是 遍历 总 共 501 个 归 一 化 的 高 


斯 随机 变量 的 和 ， 包 含 500 个 权重 项 和 额外 1 个 偏 置 项 ， 因 此 z 本 身 是 一 个 均值 为 0、 标准 差 为 
V501 = 22.4 的 高 斯 分 布 。z 的 高 斯 分 布 其 实 非常 宽 ， 并 不 是 尖 的 形状 ， 如 图 3-29 所 示 。 



























































0.02 





3.3 ”权重 初始 化 103 





由 图 3-29 可 知 ，|z| 会 变 得 非常 大 , 即 z > 1 或 者 z < -1。 这 样 隐 藏 神经 元 的 输出 o(z) 就 会 
接近 1 或 0， 也 就 表示 隐藏 神经 元 会 他 和 。 所 以 当 出 现 这 种 情况 时 ， 微 调 权重 会 给 隐藏 神经 元 的 
激活 值 带 来 极其 微弱 的 改变 。 这 种 微弱 的 改变 也 会 影响 神经 网 络 中 的 其 他 神经 元 , 导致 相应 的 代 
价 函数 发 生 改变 。 结 果 就 是 执行 梯度 下 降 算 法 时 这 些 权 重 会 学 习 得 非常 缓慢 "。 这 其 实 和 前 面 讨 
论 的 问题 差不多 , 前 面 的 情况 是 输出 神经 元 在 错误 的 值 上 饱和 导致 学 习 放 缓 。 之 前 通过 选择 代价 
函数 解决 了 问题 ， 然 而 尽管 那 种 方式 对 输出 神经 元 有 效 ， 但 对 于 隐藏 神经 元 的 饱和 无 效 。 




















A 


第 一 个 隐藏 层 的 权重 输入 大 致 如 此 。 当 然 ,类似 的 论证 也 适用 于 后 面 的 隐藏 层 : 如 果 后 面 隐 
藏 层 的 权重 也 是 用 归 一 化 的 高 斯 分 布 进行 初始 化 的 ,那么 激活 值 将 会 非常 接近 1 或 0， 学习 速度 
也 会 相当 缓慢 。 



































还 有 什么 方法 可 以 更 好 地 进行 初始 化 , 避免 这 类 饱和 , 最 终 避 免 学 习 速 度 下 降 吗 ? 假设 有 一 
个 带 太 个 输入 权重 的 神经 元 ， 我 们 会 使 用 均值 为 0、 标准 差 为 1/\ 奈 的 高 斯 随机 分 布 初始 化 这 些 
权重 。 也 就 是 说 ， 向 下 挤 压 高 斯 分 布 ， 让 神经 元 更 不 可 能 饱和 。 我 们 会 继续 使 用 均值 为 0、 标准 
差 为 1 的 高 斯 分 布 来 初始 化 偏 置 ， 稍 后 解释 原因 。 基 于 这 些 设 定 ， 带 权 和 z= 》 ,wx, + 仍然 
是 一 个 均值 为 0, 但 有 尖锐 峰值 的 高 斯 分 布 ,假设 有 500 个 值 为 0 的 输入 和 500 个 值 为 1 的 输入 ， 
那么 很 容易 证 明 z 是 遵循 均值 为 0、 标 准 差 为 V3/2 = 1.22.… 的 高 斯 分 布 。 峰 值 比 之 前 更 尖锐 ， 为 
了 直观 地 比较 ， 其 至 不 得 不 压缩 纵 坐 标 ， 如 图 3-30 所 示 。 
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图 3-30 





中 第 2 章 详 细 讨论 过 这 个 问题 ， 当 时 通过 反 向 传播 的 方程 得 知 输入 至 饱和 神经 元 的 权重 学 习 缓慢 。 
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这 样 的 一 个 神经 元 更 不 可 能 饱和 ， 因 此 也 不 大 可 能 出 现 学 习 速 度 下 降 的 问题 。 


练 习 
验证 z= 了 ,wx +b 的 标准 差 为 V3/2 。 有 两 点 提示 : 


(1) 随机 独立 变量 和 的 方差 是 每 个 随机 独立 变量 方差 的 和 ; 
(2) 方差 是 标准 差 的 平方 。 


























前 面 提 到 ， 我 们 会 继续 使 用 之 前 的 方式 初始 化 偏 置 ， 就 是 使 用 均值 为 0、 标准 差 为 1 的 高 斯 
分 布 来 初始 化 偏 置 。 这 其 实 是 可 行 的 ， 因 为 这 样 做 并 不 会 让 神经 网 络 更 容易 饱和 。 实 际 上 ,考虑 
到 已 经 避免 了 饱和 的 问题 ， 如 何 初 始 化 偏 置 影响 并 不 大 。 有 些 人 将 所 有 偏 置 初始 化 为 0， 依赖 梯 
度 下 降 算法 来 学 习 合 适 的 偏 置 。 但 是 因为 差别 不 是 很 大 ， 所 以 之 后 还 会 按照 前 面 的 方式 进行 初 
始 化 。 
























































下 面 以 MNIST 数字 分 类 任务 来 比较 新 旧 权 重 初始 化 方法 。 还 是 使 用 30 个 隐藏 神经 元 , 小 批 
量 的 大 小 为 10， 正 则 化 参数 4 = $.0 ， 并 使 用 交叉 人 代 价 函数 。 学 习 率 从 0.5 降 至 0.1， 这 样 做 能 
证 结果 在 图 像 中 凸显 。 首 先 使 用 旧 的 权重 初始 化 方法 进行 训练 : 


























>>> import mnist loader 
>>> training data, validation data, test data = \ 
.mnist loader.1oad data wrapper() 
>>> import network2 
>>> net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost) 
>>> net.large weight initializer() 
>>> net.SGD(training data, 30, 10, 0.1, lmbda = 5.0， 
. evaluation data=validation data, 





. Monitor evaluation accuracy=True) 





也 使 用 新 方法 来 初始 化 权重 ,实际 上 更 简单 ， 因 为 network2 默认 使 用 新 方法 。 这 意味 着 可 
以 丢掉 前 面 的 net.large_weight initializer() 调 用 : 


>>> net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost) 
>>> net.SGD(training data, 30, 10, 0.1, lmbda = 5.0, 

. evaluation data=validation data, 

. Monitor evaluation accuracy=True) 





结果 如 图 3-312 所 示 。 











Q@ 此 图 以 及 下 一 幅 图 由 weight initialization.py 生成 。 
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35 新 的 权重 初始 化 方法 
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图 3-31( 见 彩 插 ) 人 


两 种 情形 下 , 准确 率 在 96% 处 重合 了 。 最 终 的 分 类 准确 率 几 乎 完全 相同 , 但 新 的 初始 化 方法 
速度 提升 明显 。 首 轮训 练 后 , 旧 的 初始 化 方法 的 分 类 准确 率 低 于 87% , 而 新 方法 几乎 达到 了 93%。 
新 的 权重 初始 化 方法 将 训练 带 到 了 一 个 新 的 层次 , 可 快速 得 到 好 的 结果 。 在 使 用 100 个 隐藏 神经 
元 时 ， 同 样 的 情况 也 出 现 了 ， 如 图 3-32 所 示 。 
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图 3-32 ( 见 彩 搬 ) 
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在 这 种 情况 下 , 两 条 曲线 并 没有 重合 。 然而 , 我 在 试验 中 发 现 再 训练 多 轮 ( 这 里 没有 展示 )， 


准确 率 其 实 也 几乎 相同 。 这 些 试验 表明 , 改进 的 权重 初始 化 仅仅 会 加 快 训练 ， 对 神经 网 络 的 最 终 
表现 没有 影响 。 然 而 ,第 4 章 的 一 些 例子 使 用 1/ Vn 权重 初始 化 并 长 期 运行 ， 结 果 要 好 很 多 。 


此 ， 














新 方法 不 仪 能 加 速 训练 ， 有 了 时 也 能 提升 最 终 表现 。 

















1/ Vm 的 权重 初始 化 方法 有 助 于 改善 神经 网 络 的 学 习 方 式 ， 还 有 一 些 权 重 初始 化 技术 是 基于 























该 基本 思想 的 ， 这 里 不 再 讨论 ， 因 为 1/ Vn 表现 相当 好 。 如 有 兴趣 ， 推 荐 阅读 Yoshua Bengio 的 
论文 "， 以 及 相关 参考 文献 。 


口 


问 题 
综合 运用 正则 化 和 改进 的 权重 初始 化 方法 
有 时 L2 正则 化 的 表现 类 似 于 新 的 权重 初始 化 方法 。 假 设 使 用 旧 的 权重 初始 化 方法 ， 考 虑 如 
下 论断 : 


(1) 假设 4 不 太 小 ， 训 练 的 第 一 轮 将 几乎 完全 被 权重 衰减 主导 ; 
(2) 如 果 714 <n， 权 重 会 按照 因子 exp(-n4/m) 每 轮 衰 减 ; 
(3) 假设 1 不 太 大 ， 权 重 衰减 会 在 权重 降 到 1/ Vn 时 交 弱 ， 其 中 是 神经 网 络 中 权重 的 数目 。 


请 论证 这 些 情形 在 图 例 中 都 成 立 。 


3.4 复 探 手 写 识 别 问题 : 代码 


下 面 实现 前 面 这 些 想法 。 我们 将 编写 一 个 新 程序 network2.py, 这 是 第 1 章 开 发 的 network.py 


的 改进 版 本 。 关 于 network.py， 可 自行 回顾 。 新 程序 仅 有 74 行 代 码 ， 也 很 好 懂 。 





和 network.py 一 样 ， 主 要 部 分 是 Network 类 ， 表 示 神 经 网 络 。 使 用 一 个 sizes 的 列表 来 对 相 





应 的 每 层 进行 初始 化 ， 默 认 使 用 交叉 粒 作 为 代价 参数 : 


class Network(object): 





def init (self, sizes, cost=CrossEntropyCost): 
self.num layers = len(sizes) 
self.sizes = sizes 
self.default weight initializer() 





self.cost = cost 

















init 方法 的 前 几 行 和 network.py 中 的 一 样 简单 易 懂 ， 但 后 两 行 是 新 的 ， 下 面 分 析 其 作用 。 








QD Yoshua Bengio. Practical Recommendations for Gradient-Based Training of Deep Architectures, 2012. 


3.4 复 探 手 写 识 别 问题 : 代码 107 





default_weight_initialize 方法 使 用 了 改进 过 的 权重 初始 化 方法 。 如 前 所 述 ， 设 置 均值 为 
0， 标 准 差 为 /Vn ， 为 对 应 的 输入 连接 数 。 我 们 使 用 均值 为 0、 标准 差 为 1 的 高 斯 分 布 来 初始 
化 偏 置 ， 代 码 如 下 所 示 : 








def default weight initializer(self): 
self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]] 
self.weights = [np.random.randn(y, x)/np.sqrt(x) 
for x, y in zip(self.sizes[:-1], self.sizes[1:]) 


Pm 


























关于 这 段 代 码 ，np 指 的 是 进行 线性 代数 运算 的 NumPy 库 。 程 序 在 开头 会 导 和 人 NumPy。 同 
样 ， 没 有 对 第 一 层 神 经 元 的 偏 置 进行 初始 化 ， 因 为 第 一 层 其 实 是 输入 层 ， 不 需要 引入 任何 偏 置 。 
network.py 也 是 这 样 做 的 。 























作为 default weight initializer 的 替代 方法 ,代码 中 包含 了 large weight initializer 方 
法 。 该 方法 使 用 了 第 1 章 中 的 方法 初始 化 权重 和 偏 置 ， 代 码 和 default_weight_initializer 略 有 
区 别 : 





def large weight initializer(self): 
self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]] 
self.weights = [np.random.randn(y, x) 
for x, y in zip(self.sizes[:-1], self.sizes[1:])] 














将 large_weight initializer 方法 包含 在 内 是 为 了 便于 跟 第 1 章 的 结果 进行 比较 , 不 推荐 在 
实际 运用 中 这 么 做 。 








初始 化 方法 init 中 第 二 处 不 同 是 初始 化 了 cost 属性 。 为 了 说 明 其 工作 原理 ,看 一 下 用 于 表 
示 交 义 炉 代价 的 类 ”: 








class CrossEntropyCost(object): 


@staticmethod 
def fn(a, y): 
return np.sum(np.nan to num(-y*np.log(a)-(1-y)*np.log(1-a))) 


@staticmethod 
def delta(z, a, y): 
return (a-y) 





G@ 如 果 不 熟悉 Python 的 静态 方法 , 可 以 忽略 @staticmethod 修饰 符 , 仅仅 把 fn 和 delta 看 作 普 通 方法 。 如 果 想 了 解 细 
节 ，@staticmethod 所 做 的 是 告诉 Python 解释 器 其 随后 的 方法 完全 不 依赖 对 象 ， 这 就 是 self 没有 作为 参数 传人 fn 
和 delta 的 原因 。 
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下 面 分 解 一 下 。 即 便 交 又 信 从 数学 上 讲 是 函数 ， 这 里 也 用 Python 的 类 而 不 是 Python 函数 实 
现 了 它 , 这 样 做 是 因为 代价 函数 在 神经 网 络 中 起 着 两 种 作用 。 明 显 的 作用 是 度量 输出 激活 值 a 和 
目标 输出 的 差距 ， 这 是 通过 CrossEntropyCost.fn 方法 实现 的 。( 注意 ，np.nan_to_num 调用 确 
保 NumPy 能 正确 处 理 接近 0 的 对 数 。) 当然 ,代价 函数 还 有 另 一 种 作用 。 回 想 一 下 ， 第 2 章 运 行 
反 向 传播 算法 时 , 需要 计算 神经 网 络 输出 误差 5” 。 这 种 形式 的 输出 误差 取决 于 代价 函数 的 选择 : 
代价 孙 数 不 同 ， 输 出 误差 的 形式 也 就 不 同 。 对 于 交叉 炉 函 数 ， 输 出 误差 如 方程 (99) 所 示 : 















































6:=a’-y (99) 


所 以 ， 我们 定义 了 第 二 个 方法 CrossEntropyCost.delta， 以 引导 神经 网 络 计算 输出 误差 ， 然 
后 将 这 两 个 方法 打包 在 一 个 类 中 ， 该 类 包含 神经 网 络 需 要 知道 的 有 关 代 价 函 数 的 所 有 信息 。 








类 似 地 , network2.py 还 包含 了 一 个 表示 二 次 代价 函数 的 类 , 用 于 和 第 1 章 的 结果 进行 对 比 ， 
因为 后 面 几乎 都 在 使 用 交叉 录 函数。 代码 如 下 所 示 ，QuadraticCost.fn 方法 是 关于 神经 网 络 输出 
a 和 目标 输出 y 的 二 次 代价 函数 的 直接 计算 结果 。 由 QuadraticCost.delta 返回 的 值 基于 二 次 代价 

函数 的 误差 表达 式 (30)， 请 参见 第 2 章 。 





























class QuadraticCost(object ) : 


@staticmethod 
def fn(a, y): 
return 0.5*np.linalg.norm(a-y)**2 


@staticmethod 
def delta(z, a, y): 
return (a-y) * sigmoid prime(z) 


这 样 就 弄 清楚 了 network2.py 和 network.py 两 个 实现 之 间 的 主要 差别 ， 都 很 简单 ， 此 外 还 有 
一 些小 的 变动 , 包括 L2 正则 化 的 实现 , 稍 后 介绍 。 在 此 之 前 ， 先 看 看 network2.py 的 完整 实现 代 


码 。 无 须 仔 细 阅 读 这 些 代码 , 但 明晰 整体 结构 有 助 于 理解 文档 中 的 内 容 ， 进 而 理解 每 段 程序 的 作 
用 。 当 然 ， 也 可 以 深入 研究 ! 如 果 感 到 困惑 ， 后 面 的 讲解 有 助 于 你 理解 代码 。 代 码 如 下 : 

















"""network2.py 


network.py 的 一 个 改进 版 本 ,实现 了 针对 前 馈 神 经 网 络 的 随机 梯度 下 降 算 法 。 改 进 之 处 包括 增加 了 交 又 蚁 代价 池 
数 、 正 则 化 和 更 好 的 权重 初始 化 方法 。 注 意 ， 这 里 着 重 于 让 代码 简单 易 读 且 易 修改 ， 并 没有 进行 优化 ， 略 去 了 不 
少 可 取 的 特性 。 


3.4 复 探 手 写 识 别 问题 : 代码 109 





#### 库 

# 标准 库 
import json 
import random 


import sys 
# 第 三 方 库 


import numpy as np 


提 ### 定义 二 次 代价 函数 和 交叉 粒 代 价 函 数 
class QuadraticCost(object): 


@staticmethod 

def fn(a, y): 
""" 返 回 与 输出 a 和 目标 输出 y 相关 的 代价 。""" 
return 0.5*np.linalg.norm(a-y)**2 





@staticmethod 

def delta(z, a, y): 
""" 输 出 层 返 回 误差 delta。""" 
return (a-y) * sigmoid prime(z) 


class CrossEntropyCost(object): 


@staticmethod 

def fn(a, y): 
""" 返 回 与 输出 a 和 目标 输出 y 相关 的 代价 。 注 意 ，np.nan_ to_num 用 于 确保 数值 稳定 性 。 如 果 a 和 Yy 都 
在 同样 的 位 置 值 为 1.0， 那 么 表达 式 (1-y)*np.log(1-a) 返回 nan。np.nan_ to_num 会 确保 将 其 转换 成 正 
确 的 值 (0.0)。""" 
return np.sum(np.nan to num(-y*np.log(a)-(1-y)*np.log(1-a))) 


@staticmethod 

def delta(z, a, y): 
""" 输 出 层 返 回 误差 delta。 注 意 ， 该 方法 没有 用 到 参数 Zz， 它 包含 在 方法 的 参数 中 ， 用 于 保证 接口 与 其 他 
代价 类 的 delta 方法 一 致 。""" 
return (a-y) 


#### 主要 的 Network 类 
class Network(object): 
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def 


def 


def 


def 


def 


init (self, sizes, cost=CrossEntropyCost): 

""" 列 表 sizes 包含 对 应 层 的 神经 元 的 数目 ， 例如， 如果 列 表 是 [2，3，1]， 那 么 就 是 指 一 个 三 层 神经 
网 络 ， 第 一 层 有 2 个 神经 元 ， 第 二 层 有 3 个 神经 元 ， 第 三 层 有 1 个 神经 元 。 使 用 self.default weight_ 
initializer 随机 初始 化 神经 网 络 的 偏 置 和 权重 (见方 法 的 文档 字符 事 )。""" 

self.num layers = len(sizes) 

self.sizes = sizes 

self.default weight initializer() 





self.cost=cost 


default weight initializer(self): 
""" 使 用 一 个 均值 为 0、 标准 差 为 1、 除 以 连接 到 同一 个 神经 元 上 的 权重 数目 的 平方 根 的 高 斯 分 布 来 初始 
化 每 个 权重 。 使 用 一 个 均值 为 0、 标准 差 为 1 的 高 斯 分 布 来 初始 化 偏 置 。 








注意 ， 这 里 假设 第 一 层 是 一 个 输入 层 ， 所 以 不 会 对 这 些 神 经 元 设置 任何 偏 置 ， 因 为 偏 置 只 用 于 计算 后 面 
self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]] 
self.weights = [np.random.randn(y, x)/np.sqrt(x) 

for x, y in zip(self.sizes[:-1], self.sizes[1:])] 


large weight initializer(self): 
""" 使 用 一 个 均值 为 0、 标准 差 为 1 的 高 斯 分 布 来 初始 化 权重 。 使 用 一 个 均值 为 0、 标准 差 为 1 的 高 斯 分 
布 来 初始 化 偏 置 。 





注意 ， 这 里 假设 第 一 层 是 一 个 输入 层 ， 所 以 不 会 对 这 些 神 经 元 设置 任何 偏 置 ， 因 为 偏 置 只 用 于 计算 后 面 





初始 化 权重 和 偏 置 的 方法 与 第 1 章 中 的 相同 , 包含 进来 可 以 进行 比 对, 通常 好 于 使 用 默认 的 权重 初始 化 。 
self.biases = [np.random.randn(y, 1) for y in self.sizes[1:]] 
self.weights = [np.random.randn(y, x) 

for x, y in zip(self.sizes[:-1], self.sizes[1:])] 


feedforward(self, a): 

""" 若 输入 为 a， 则 返回 输出 。""" 

for b, w in zip(self.biases, self.weights): 
a = sigmoid(np.dot(w, a)+b) 

return a 


SGD(self, training data, epochs, mini batch size, eta, 
lmbda = 0.0， 
evaluation data=None， 
monitor evaluation cost=False， 
monitor _ evaluation accuracy=False, 
monitor training cost=False, 








monitor training accuracy=False): 
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""" 使 用 小 批量 随机 梯度 下 降 算 法 训练 神经 网 络 。training_data 是 由 训练 输入 和 目标 输出 的 元 组 (X，y) 
组 成 的 列表 。 其 他 非 可 选 参数 容易 理解 ， 比 如 正则 化 参数 Imbda。 该 方法 也 接收 evaluation data， 通常 
是 验证 数据 或 者 测试 数据 。 可 以 通过 设置 合适 的 标志 位 来 监控 验证 数据 或 者 训练 数据 上 的 代价 和 准确 率 。 
该 方法 返回 一 个 包含 4 个 列表 的 元 组 : 验证 数据 上 (每 轮 ) 的 代价 、 验 证 数据 上 的 准确 率 、 训 练 数据 上 
的 代价 ， 以 及 训练 数据 上 的 准确 率 。 每 轮训 练 结 束 后 计算 所 有 值 。 例 如 训练 30 轮 ， 那么 元 组 的 第 一 个 元 
素 就 是 一 个 有 30 个 元 素 的 列表 ， 包 含 了 在 每 轮训 练 结 束 时 在 验证 数据 上 的 代价 。 注 意 ， 对 应 标志 位 未 设 
置 时 该 列表 为 空 。"" 
if evaluation data: n data = len(evaluation data) 
n = len(training data) 
evaluation cost, evaluation accuracy = [], [] 
training cost, training accuracy = [], [] 
for j in xrange(epochs): 
random. shuffle(training data) 
mini batches = [ 
training data[k:k+mini batch size] 
for k in xrange(0, n, mini batch size)] 
for mini batch in mini batches: 
self.update mini batch( 
mini batch, eta, lmbda, len(training data)) 
"Epoch %s training complete" % j 








if monitor training cost: 





cost = self.total cost(training data, lmbda) 
training cost.append(cost) 
print "Cost on training data: {}".format(cost) 
if monitor training accuracy: 
accuracy = self.accuracy(training data, convert=True) 
training accuracy.append(accuracy) 
print "Accuracy on training data: {} / {}".format( 
accuracy, n) 
if monitor evaluation cost: 
cost = self.total cost(evaluation data, lmbda, convert=True) 
evaluation cost.append(cost) 
print "Cost on evaluation data: {}".format(cost) 
if monitor evaluation accuracy: 
accuracy = self.accuracy(evaluation data) 








evaluation accuracy.append(accuracy) 
print "Accuracy on evaluation data: {} / {}".format( 
self.accuracy(evaluation data), n_data) 
print 
return evaluation cost, evaluation accuracy, \ 
training cost, training accuracy 


def update mini batch(self, mini batch, eta, lmbda, nN): 
""" 对 一 个 小 批量 应 用 梯度 下 降 算法 和 反 向 传播 算法 来 更 新 神经 网 络 的 权重 和 偏 置 。 mini_batch 是 由 若干 
元 组 (X，y) 组 成 的 列表 ，eta 是 学 习 率 ，lmbda 是 正则 化 参数 ，n 是 训练 数据 集 的 大 小 。""" 
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nabla b = [np.zeros(b.shape) for b in self.biases] 
nabla w = [np.zeros(w.shape) for w in self.weights] 
for x, y in mini batch: 
delta nabla b, delta nabla w = self.backprop(x, y) 
nabla b = [nb+dnb for nb, dnb in zip(nabla b, delta nabla b)] 
nabla w = [nw+dnw for nw, dnw in zip(nabla w, delta nabla w)] 
self.weights = [(1-eta*(lmbda/n))*w-(eta/len(mini batch))*nw 
for w, nw in zip(self.weights, nabla w)] 
self.biases = [b-(eta/len(mini batch))*nb 
for b, nb in zip(self.biases, nabla b)] 





def backprop(self, x, y): 
"" "返回 一 个 表示 代价 函数 C_X 梯度 的 元 组 (nabla b，nabla w)。nabla b 和 nabla w 是 一 层 接 一 层 的 
numpy 数组 的 列表 ， 类 似 于 self.biases 和 self.weights。""" 
nabla b = [np.zeros(b.shape) for b in self.biases] 
nabla w = [np.zeros(w.shape) for w in self.weights] 
# 前 馈 
activation = x 
activations = [x] # 一 层 接 一 层 地 存放 所 有 激活 值 
Zs = [] # 一 层 接 一 层 地 存放 所 有 Z 向 量 
for b, w in zip(self.biases, self.weights): 
z = np.dot(w, activation)+b 
zs.append(z) 
activation = sigmoid(z) 
activations.append(activation) 
# 反 向 传播 
delta = (self.cost).delta(zs[-1], activations[-1], y) 
nabla b[-1] = delta 
nabla w[-1] = np.dot(delta, activations[-2].transpose()) 
""" 注 意 ， 下 面 循环 中 的 变量 1 和 第 2 章 的 形式 稍 有 不 同 ， 其 中 1 = 1 表示 最 后 一 层 神经 元 ，1 = 2 则 是 
倒数 第 二 层 ， 以 此 类 推 。 这 是 对 书 中 方式 的 重 编号 ， 间 在 利用 Python 列表 的 负 索 引 功 能 。 ” ” 
for 1 in xrange(2, self.num layers): 
z = zs[-1] 
sp = sigmoid prime(z) 
delta = np.dot(self.weights[-1+1].transpose(), delta) * sp 
nabla b[-1] = delta 
nabla w[-1] = np.dot(delta, activations[-1-1].transpose()) 
return (nabla b, nabla w) 











def accuracy(self, data, convert=False): 
""" 返 回 data 输入 中 神经 网 络 输出 正确 结果 的 数目 。 注 意 ， 这 里 假设 神经 网 络 输出 的 是 最 后 一 层 有 着 最 
大 激活 值 的 神经 元 的 索引 。 


当 数 据 集 是 验证 数据 或 者 测试 数据 (常见 情形 ) 时 ， 标 志 位 convert 应 设置 为 False; 而 当 数据 集 是 训练 
数据 时 ， 应 设置 为 True。 这 取决 于 不 同 数 据 集中 结果 y 的 表示 ， 这 标志 了 是 否 需要 在 不 同 表示 之 间 进 行 转 
换 。 不 同 的 数据 集 采 用 不 同 表示 可 能 有 点 奇怪 ， 为 何 3 个 数据 集 不 采用 同样 的 表示 呢 ? 这 其 实 是 出 于 性 能 


3.4 复 探 手写 识别 问题 代码 113 





上 的 考量 一 一 程序 通常 会 在 训练 数据 上 评估 代价 ， 而 在 其 他 数据 集 上 评估 准确 率 。 对 于 不 同类 型 的 计算 ， 
使 用 不 同 的 表示 会 加 速 处 理 。 关 于 表示 的 更 多 细节 见 mnist loader.1oad data wrapper。""" 
if convert: 
results = [(np.argmax(self.feedforward(x)), np.argmax(y)) 
for (x, y) in datal] 
else: 





results = [(np.argmax(self.feedforward(x)), y) 
for (x, y) in datal] 
return sum(int(x == y) for (x, y) in results 


def total cost(self, data, lmbda, convert=False): 
""" 返 回 数据 集 data 的 总 代价 。 当 数据 集 是 训练 数据 (常见 情形 ) 时 ， 标 志 位 convert 应 设置 为 False; 
而 当 数 据 集 是 验证 数据 或 测试 数据 时 ， 应 设置 为 TrTUe。 可 参考 accUracy 方法 的 注释 (不 过 与 之 相反 )。 





cost = 0.0 
for x, y in data: 
a = self.feedforward(x) 
if convert: y = vectorized result(y) 
cost += self.cost.fn(a, y)/len(data) 
cost += 0.5*(lmbda/len(data))*sum( 
np.linalg.norm(w)**2 for w in self.weights) 
return cost 





def save(self, filename): 

""" 保 存 神 经 网 络 至 文件 filename。""" 

data = {"sizes": self.sizes, 
"weights": [w.tolist() for w in self.weights], 
"biases": [b.tolist() for b in self.biases]， 
"cost": str(self.cost. name )} 

f = open(filename, "w") 

json.dump(data, f) 

f.close() 


#### 加 载 神经 网 络 

def load(filename): 
""" 从 和]ename 文件 加 载 神经 网 络 ， 并 返回 神经 网 络 实例 。""" 
f = open(filename, "r") 

data = json.1load(f) 

f.close() 


cost = getattr(sys.modules[ name ], data["cost"]) 





net = Network(data["sizes"], cost=cost) 

net.weights = [np.array(w) for w in data["weights"]] 
net.biases = [np.array(b) for b in data["biases"]] 
return net 
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持 香 其 他 函数 
def vectorized result(j): 
""" 返 回 一 个 10 维 单位 向 量 ， 在 第 了 个 位 置 为 1.0， 其 余 均 为 0。 这 可 以 用 于 将 一 个 数字 (09) 转换 成 神经 
网 络 的 一 个 对 应 目标 输出 。""" 
e = np.zeros((10, 1)) 
e[j] = 1.0 
return e 


def sigmoid(z): 
"cigmoid 函数 """ 
return 1.0/(1.0+np.exp(-z)) 


def sigmoid prime(z): 
"""sigmoid 函数 的 导数 ”” 
return sigmoid(z)*(1-sigmoid(z)) 








一 处 有 趣 的 变动 是 代码 中 增加 了 L2 正则 化 。 尽 管 这 是 概念 上 的 一 个 主要 变动 ， 实 现 起 来 却 
相当 简单 。 对 于 大 部 分 情况 , 仅仅 需要 将 参数 lmbda 传递 到 不 同 的 方法 中 即 可 , 主要 是 Network.SGD 
方法 。 实际 工作 由 一 行 代 码 完 成 一 一 Network.update_mini_batch 的 倒数 第 4 行 , 在 此 处 修改 梯度 
下 降 规 则 来 进行 权重 衰减 。 尽 管 改动 很 小 ， 但 对 结果 有 很 大 影响 。 











其 实 这 是 在 神经 网 络 中 实现 一 些 新 技术 的 常见 现象 。 前 面 用 不 小 的 篇 幅 来 讨论 正则 化 。 概 念 
不 太 好 理解 ， 但 易于 添加 到 程序 中 。 略 微 改动 代码 即 可 实现 精妙 复杂 的 技术 。 




















另 一 处 微小 却 重要 的 改动 是 随机 梯度 下 降 算 法 增加 了 几 个 Network.SGD 标志 位 ， 实 现 了 在 
training data 或 者 evaluation_data 上 监控 代价 和 准确 率 。 前 面 使 用 过 这 些 标志 位 ,下 面 举例 说 
明 其 工作 方式 作为 回顾 。 


>>> import mnist loader 
>>> training data, validation data, test data = \ 
. Mnist loader.1load data wrapper() 
>>> import network2 
>>> net = network2.Network([784, 30, 10], cost=network2.CrossEntropyCost) 
>>> net.SGD(training data, 30, 10, 0.5, 
. lmbda = 5.0， 
. evaluation data=validation data, 
. Monitor evaluation accuracy=True, 
. Monitor evaluation cost=True, 
. Monitor training accuracy=True, 








. Monitor training cost=True) 








这 里 设置 evaluation data 为 validation data， 当 然 ， 也 可 以 在 test_data 或 者 其 他 数据 集 
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上 监控 性 能 .这 里 有 4 个 标志 位 能 够 监控 evaluation_ data 和 training_ data 上 的 代价 和 准确 率 。 





这 些 标志 位 默认 为 False， 这 里 选择 开启 以 监控 神经 网 络 性 能 。 另 外 ，network2.py 的 Network.SGD 


方法 返回 了 四 元 组 作为 监控 结果 ， 使 用 方式 如 下 : 


>>> evaluation cost, evaluation accuracy, 
. training cost, training accuracy = net.SGD(training data, 30, 10, 0.5, 
. lmbda = 5.0， 
. evaluation data=validation data, 
. monitor evaluation accuracy=True, 
. Monitor evaluation cost=True, 
. monitor training accuracy=True, 





. Monitor training cost=True) 




















如 此 一 来 ，evaluation_cost 将 会 是 一 个 含 30 个 元 素 的 列表 ， 其 中 包含 了 验证 集 上 每 轮 的 代 




















价 。 这 类 信息 有 助 于 理解 神经 网 络 的 行为 ， 比 如 可 以 用 它 绘制 神经 网 络 随时 间 学 习 的 状态 图 





























前 面 的 绘图 也 是 这 个 思路 。 需 要 注意 的 是 ， 如 果 没 有 设置 任何 标志 位 ,元 组 中 的 对 应 元 素 就 是 空 











列表 。 


增加 的 代码 还 包括 Network.save 方法 , 用 于 将 Network 对 象 保存 到 磁盘 , 还 有 一 个 将 其 加 载 
回 内 存 的 函数 。 这 两 个 方法 都 使 用 JSON， 而 非 Python 的 pickle 模块 或 者 cPickle 模块 ， 后 者 是 
Python 中 保存 和 加 载 对 象 的 常用 方法 。 使 用 JSON 的 原因 是 ， 以 便 日 后 想 改变 Network 类 来 允许 











非 sigmoid 的 神经 元 。 要 想 实 现 这 一 改变 , 最 可 行 的 是 修改 Network._init 方法 中 定义 的 属性 。 








如 果 简 单 地 向 对 象 应 用 pickle， 会 导致 1oad 函数 出 错 。 使 用 JSON 进行 序列 化 可 以 显 式 地 让 旧 


Network 仍 能 执行 1oad。 








还 有 其 他 一 些微 小 的 变动 ， 但 都 只 是 对 network.py 的 微调 ， 结 果 就 是 程序 从 74 行 增加 到 了 


152 行 。 


问 题 

口 更 改 前 面 的 代码 来 实现 Ll 正则 化 ， 然 后 使 用 含 30 个 隐藏 神经 元 的 神经 网 络 对 MNIST 数字 

进行 分 类 。 你 能 够 找到 一 个 正则 化 参数 使 得 效果 好 于 非 正则 化 吗 ? 

口 看 看 netwotk.py 中 的 Network.cost derivative 方法 。 该 方法 是 针对 二 次 代价 函数 遍 写 的 。 如 
何 修 改 将 其 用 于 交叉 炳 代价 函数 呢 ? 会 出 现 什么 问题 ? 在 network2.py 中 ,已 经 移 除 了 Network. 
cost derivative 方 法， 将 其 集成 到 CrossEntropyCost.delta 方 法 中 了 。 这 样 是 如 何 解 决 所 
发 现 的 问题 的 ? 





116 第 3 章 


改进 神经 网 络 的 学 习 方法 





3.5 如何 选 择 神经 网 络 的 超 参 数 


前 面 没 有 讨论 如 何 选择 超 参数 〈 比如 学 习 率 7 、 正 则 化 参数 4 )， 只 是 给 出 了 效果 很 好 的 那 
些 值 。 实 践 中 ， 使 用 神经 网 络 解决 问题 时 ， 寻 找 好 的 超 参数 其 实 很 困难 。 例 如 对 于 MNIST 图 像 
分 类 问题 ， 开 始 时 不 知道 如 何 选择 超 参 数 。 假 设 刚 开始 的 试验 像 前 面 那样 选择 超 参数 : 30 个 隐藏 
神经 元 , 小 批量 大 小 为 10, 使 用 交叉 炉 并 训练 30 轮 , 但 学 习 率 7 =10.0 , 正则 化 参数 4 = 1000.0， 





运行 结果 如 下 : 








>>> import mnist loader 


>>> training data, va 
. Mnist loader.1oad ， 


>>> import network2 


>>> net = netwo 


>>> net.SGD(trai 
. evaluation data=vali 


Epoch 0 trainin 
Accuracy on eva 


Epoch 1 trainin 
Accuracy on eva 














Epoch 2 trainin 
Accuracy on eva 


Epoch 27 traini 
Accuracy on eva 


Epoch 28 traini 
Accuracy on eva 














Epoch 29 traini 
Accuracy on eva 
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idation data, test data = \ 
data wrapper() 


etwork([784，30，10]) 


ta，30，10，10.0，]lmbda = 1000.0， 
dation data, monitor evaluation accuracy=True) 


data: 1030 / 10000 


data: 990 / 10000 











data: 1009 / 10000 


data: 1009 / 10000 


data: 983 / 10000 





data: 967 / 10000 











分 类 准确 率 并 未 超过 随机 选择 。 神 经 网 络 的 行为 类 似 于 随机 噪声 生成 器 。 


你 可 能 会 说 :“ 这 好 办 ,降低 学 习 率 和 减 小 正则 化 参数 就 行 了 。” 然 而 你 并 不 会 提前 知道 需要 
调整 的 是 这 些 超 参数 。 可 能 真正 的 问题 是 30 个 隐藏 神经 元 本 身 无 法 正常 工作 ， 调 整 其 他 超 参 数 





都 没有 用 ? 可 能 真 的 需要 至 少 100 个 隐藏 神经 元 ? 或 者 至 少 300 个 隐藏 神经 元 ”或 者 更 多 层 的 神 







































































经 网 络 ? 或 者 需要 不 同 的 输出 编码 方式 ?可 能 神经 网 络 一 直 在 学 习 , 只 是 学 习 的 轮 数 还 不 够 ? 可 
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能 小 批量 设置 得 太 小 了 ? 可 能 需要 改 用 二 次 代价 函数 ? 可 能 需要 尝试 不 同 的 权重 初始 化 方法 ? 
超 参 数 的 选择 容易 让 人 迷失 方向 。 如 果 神 经 网 络 的 规模 很 大 ， 或 者 使 用 了 很 多 训练 数据 ， 那 么 
情况 更 糟 ， 因 为 一 次 训练 可 能 需要 几 小 时 甚至 几 天 万 至 几 周 ,最终 却 没 什么 成 果 。 如 果 这 种 情况 
一 直 发 生 , 会 打击 自信 心 。 你 可 能 会 怀疑 神经 网 络 是 否 适合 所 要 处 理 的 问题 , 或 许 应 该 放弃 这 种 


尝试 ? 

















下 面 介绍 一 些 用 于 设 定 超 参 数 的 启发 式 方法 , 旨 在 确立 一 套 合理 设置 超 参数 的 工作 流 。 当 然 ， 
篇 幅 所 限 ， 本 书 不 会 讨论 超 参数 优化 的 所 有 方法 ,况且 难以 面面俱到 ,也 不 存在 一 种 对 于 正确 策 
略 的 普遍 认 知 。 总 有 一 些 新 技巧 有 助 于 提升 性 能 ， 下 面 所 讲 的 启发 式 方法 是 很 好 的 起 点 。 











宽泛 策略 : 使 用 神经 网 络 解决 新 问题 时 ， 一 个 挑战 就 是 实现 有 价值 的 学 习 ， 即 令 效 果 好 于 随 
机 。 这 很 难 做 到 ， 当 遇 到 新 型 问题 时 尤其 如 此 。 下 面 介绍 应 对 这 类 问题 的 一 些 策略 。 


假设 首次 面 对 MNIST 图 像 分 类 问题 。 刚 开始 你 干劲 十 足 ， 但 当 第 一 个 神经 网 络 失败 后 ， 你 
可 能 会 感到 泪 瑚 。 此 时 可 以 把 问题 简化 ， 抛 开 训 练 集 和 验证 集中 0 和 工 以 外 的 那些 图 像 ， 然 后 斌 
着 训练 神经 网 络 来 区 分 0 和 1。 不 单 问题 较 10 个 分 类 的 情况 简化 了 ， 训 练 数据 也 会 减少 80%， 
这 样 能 带 来 5 倍 的 加 速 。 加 速 试验 有 助 于 快速 了 解 如 何 构建 好 的 神经 网 络 。 





















































可 以 通过 简化 神经 网 络 来 加 速 试验 并 进行 更 有 意义 的 学 习 。 如 果 认 为 [784，10] 的 神经 网 络 
可 能 比 随机 的 分 类 效果 好 ， 那 么 可 以 据 此 开始 试验 。 这 会 比 训练 一 个 [784，30，10] 的 神经 网 络 
更 快 ， 可 以 将 后 者 作为 备 选 。 









































也 可 以 通过 提高 监控 频率 来 加 速 试验 。 在 network2.py 中 ， 每 轮训 练 的 最 后 进行 监控 。 每 轮 
50 000 幅 图 像 ， 在 接收 神经 网 络 学 习 状 况 的 反馈 前 需要 等 上 一 会 儿 。 在 我 的 计算 机 上 训练 [784， 
30，10] 的 神经 网 络 基本 上 每 轮 用 时 10 秒 。 当 然 ，10 秒 并 不 算 多 ， 不 过 如 果 你 想 试 几 十 种 超 参 
数 ， 这 就 很 棘手 了 ， 更 不 要 提 更 多 超 参 数 了 。 可 以 通过 频繁 地 监控 验证 准确 率 来 获得 反馈 ， 比 如 
每 训练 1000 幅 图 像 后 查看 神经 网 络 的 表现 。 而 且 ， 与 其 使 用 全 部 10 000 幅 图 像 的 验证 集 来 监控 
性 能 ， 不 妨 使 用 100 幅 图 像 来 进行 验证 。 真 正 重要 的 是 神经 网 络 用 足够 多 的 图 像 来 真正 地 学 习 ， 
并 能 很 好 地 评估 表现 。 当 然 ，network2.py 并 没有 实施 这 样 的 监控 ， 但 是 作为 一 个 勉强 能 够 获得 
类 似 效果 的 方案 ， 可 以 将 训练 数据 减少 到 前 1000 幅 MNIST 训 练 图 像 。 下 面 尝试 一 下 ,看 看 结 
如 何 。( 为 了 简化 代码 ， 我 并 没有 取 仅 仅 是 0 和 1 的 图 像 。 当 然 ， 那 样 也 很 容易 实现 。) 










































































>>> net = network2.Network([784, 10]) 

>>> net.SGD(training data[:1000], 30, 10, 10.0, lmbda = 1000.0, \ 
.. evaluation data=validation data[:100], \ 

.. Monitor evaluation accuracy=True) 
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Epoch 0 training col 
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Accuracy on evaluation data: 10 / 100 


Epoch 1 training complete 
Accuracy on evaluation data: 10 / 100 


























Epoch 2 training complete 




















Accuracy on evaluation data: 10 / 100 

















虽然 得 到 的 仍 是 噪声 ， 但 是 有 了 进步 : 现在 每 秒 就 可 以 得 到 反馈 ,之 前 每 10 秒 才 可 以 。 这 
意味 着 可 以 更 快 地 试验 其 他 超 参数 ， 其 至 几乎 同时 尝试 不 同 的 超 参 数组 合 





he 跟 之 前 相同 。 但 是 因为 这 里 训练 样本 的 数量 改变 了 ， 所 以 必须 
调整 4 以 保证 权重 同步 下 降 。 这 意味 着 改 用 4 = 20.0 。 如 果 这 样 设 置 ， 则 有 : 





>>> net = network2.Network([784，10]) 
>>> net.SGD(training data[:1000], 30, 10, 10.0, lmbda = 20.0, \ 
. evaluation data=validation data[:100], \ 
. Monitor evaluation accuracy=True) 
Epoch 0 training complete 
Accuracy on evaluation data: 12 / 100 


Epoch 1 training complete 
Accuracy on evaluation data: 14 / 100 


Epoch 2 training complete 
Accuracy on evaluation data: 25 / 100 


























Epoch 3 training complete 
Accuracy on evaluation data: 18 / 100 




















不 错 ! 现在 有 一 个 信号 了 。 尽 管 不 是 非常 J 个 信号 。 可 以 基于 此 修改 超 参 数 
以 实现 更 多 提升 。 可 能 学 习 率 需要 增加 ( 你 可 2 原因 稍 后 解释 )， 
为 了 验证 猜想 ， 把 7 调整 至 100.0。 





























>>> net = network2.Network([784, 10]) 

>>> net.SGD(training data[:1000], 30, 10, 100.0, lmbda = 20.0, \ 
. evaluation data=validation data[:100], \ 
. Monitor evaluation accuracy=True) 

Epoch 0 training complete 

Accuracy on evaluation data: 10 / 100 
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Epoch 1 training complete 
Accuracy on evaluation data: 10 / 100 


Epoch 2 training complete 
Accuracy on evaluation data: 10 / 100 























Epoch 3 training complete 
Accuracy on evaluation data: 10 / 100 


















































结果 并 不 好 ， 说 明之 前 的 猜测 是 错误 的 ， 问 题 并 不 是 学 习 率 太 低 了 。 可 以 尝试 令 7 =1.0 : 


>>> net = network2.Network([784, 10]) 
>>> net.SGD(training data[:1000], 30, 10, 1.0, lmbda = 20.0, \ 
. evaluation data=validation data[:100], \ 
. monitor evaluation accuracy=True) 
Epoch 0 training complete 
Accuracy on evaluation data: 62 / 100 


Epoch 1 training complete 
Accuracy on evaluation data: 42 / 100 


Epoch 2 training complete 
Accuracy on evaluation data: 43 / 100 























Epoch 3 training complete 
Accuracy on evaluation data: 61 / 100 

















有 进步 ! 可 以 继续 ， 逐 个 调整 超 参 数 ， 慢 慢 提升 性 能 。 一 旦 找到 一 个 能 提升 性 能 的 7 值 ， 就 
可 以 尝试 寻找 好 的 值 ， 然 后 在 更 复杂 的 神经 网 络 架构 上 进行 试验 。 假 设 神经 网 络 包 含 10 个 隐藏 
神经 元 ， 然 后 继续 调整 7 和 4 ; 接着 调整 成 20 个 隐藏 神经 元 ， 再 反复 调整 其 他 超 参数 。 如 此 操 
作 ， 在 每 一 步 使 用 hold out 方法 验证 数据 集 来 评估 性 能 ， 通 过 这 些 度量 寻找 更 好 的 超 参数 。 这 样 
做 往往 需要 花费 更 多 时 间 来 发 现 由 超 参数 改变 带 来 的 影响 ， 进 而 逐步 降低 监控 的 频率 。 





























这 些 方法 作为 宽泛 的 策略 似乎 很 可 行 ， 然而 我 想 回 到 寻找 超 参 数 的 原点 。 实 际 上 ,前 面 的 讨 
论 过 于 乐观 ， 实 践 中 神经 网 络 有 时 学 不 到 任何 东西 ， 可 能 花费 好 几 天 调整 超 参数 ， 却 毫 无 进展 。 
重申 一 下 ， 前 期 应 该 从 试验 中 尽早 地 获得 快速 反馈 。 看 起 来 简化 问题 和 架构 只 会 降低 效率 , 实际 
上 能 够 加 速 试验 ， 因 为 能 够 更 快 地 找到 传 出 有 意义 信号 的 神经 网 络 。 一 旦 获得 这 些 信号 ， 就 可 以 
尝试 微调 超 参 数 来 快速 提升 性 能 ， 正 所 谓 “ 万 事 开头 难 ”。 
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介绍 完了 宽泛 策略 , 下 面 给 出 设置 超 参 数 的 建议 , 讨论 会 聚焦 于 学 习 率 7 、L2 正则 化 参数 
和 小 批量 大 小 。 当 然 , 很 多 观点 也 适用 于 其 他 超 参 数 的 选择 ， 包 括 关于 神经 网 络 架 构 的 、 其 他 类 
型 的 正则 化 和 后 面 会 讲 到 的 一 些 超 参数 ( 例如 momentum co-efficient )。 








学 习 率 : 假设 运行 了 3 个 对 MNIST 图 像 进行 分 类 的 神经 网 络 ， 学 习 率 分 别 为 了 =0.025、 
71=0.25、7=2.5。 我 们 会 像 前 面 的 试验 那样 设置 其 他 超 参数 ， 训 练 30 轮 ， 小 批量 大 小 设 为 10， 
4=5.0 ， 同 样 使 用 全 部 50 000 幅 训 练 图 像 。 训 练 代价 的 变化 情况 如 图 3-33 所 示 。 
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使 用 7=0.025， 代 价 随 训练 轮 数 平滑 下 降 ; 使 用 7=0.25， 代 价 刚 开始 下 降 ， 在 大 约 20 轮 后 
接近 饱和 ， 后 面 是 微小 的 振荡 和 随机 抖 劲 ; 使 用 ”=2.5， 代 价 从 始 至 终 剧 烈 振荡 。 关 于 振荡 的 原 
因 , 回想 一 下 , 应 用 随机 梯度 下 降 算法 其 实 是 期 望 逐渐 抵达 代价 函数 的 “谷底 ”, 如 图 3-34 所 示 。 
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然而 , 如果 7 太 大 , 步 长 也 会 变 大 , 可 能 使 得 算法 在 接近 最 小 值 时 又 越过 谷底 ,这 在 7 = 2.3 
时 很 可 能 发 生 。 选 择 7 = 0.25 ， 初 始 几 步 将 接近 谷底 ， 但 一 旦 到 达 谷 底 ， 又 很 容易 跨越 过 去 。 选 
择 7=0.025 ， 前 30 轮训 练 中 不 会 出 现 这 种 情况 。 当 然 ， 学 习 率 太 低 会 引发 另 一 个 问题 一 一 随机 
梯度 下 降 算法 变 慢 了 。 更 好 的 策略 其 实 是 ,开始 时 使 用 7 = 0.25 ， 接 近 谷 底 时 改 用 7 = 0.025 。 箭 
后 会 介绍 这 种 可 变 学 习 率 的 方法 。 下 面 着 重 介绍 如 何 找到 一 个 好 的 学 习 率 7 。 























基于 这 样 的 想法 , 可 以 如 下 设置 7 。 首 先 选择 在 训练 数据 上 的 代价 开始 下 降 而 非 振荡 或 者 增 
加 时 作为 对 学 习 率 阔 值 的 估计 。 这 个 估计 不 需要 太 精 确 , 可 以 估计 其 量 级 , 比如 从 7 = 0.01 开 始 。 
如 果 代 价 在 训练 的 前 几 轮 开始 下 降 ， 可 以 逐步 尝试 7 = 0.1,1.0,…， 直 到 找到 一 个 值 ， 使 得 开始 几 
轮 代价 就 开始 振荡 或 者 增加 ; 相反 ， 如 果 代 价 在 7= 0.01 时 就 开始 振荡 或 者 增加 ， 那 就 尝试 
71 = 0.0010.0001… ， 直 到 找到 使 代价 在 开始 几 轮 就 下 降 的 值 。 按 照 这 种 方法 ， 可 以 实现 对 学 习 
率 闪 值 的 量 级 估计 。 可 以 选择 性 地 优化 估计 ， 选 择 最 大 的 那些 7 ， 比 如 7= 0.5 或 者 7=0.2 (也 
不 需要 过 于 精确 )。 























显然 ，7 的 实际 值 不 应 比 国 值 大 。 实 际 上 ， 如 果 重 复 使 用 w 的 值 ， 更 应 该 使 用 稍微 小 一 点 的 
值 ， 例 如 阔 值 的 一 半 。 这 样 做 有 助 于 训练 更 多 轮 而 学 习 速 度 不 会 减 慢 。 








在 MNIST 数 据 中 , 运用 这 样 的 策略 会 得 到 对 学 习 率 阔 值 的 量 级 估计 ,大 概 是 0.1。 改进 后 得 
到 阔 值 7 = 0.3 。 所 以 ， 按 照 上 述 取 一 半 的 策略 确定 了 学 习 率 7 = 0.25 。 实 际 上 , 在 30 轮 中 使 用 
171 = 0.5 表现 不 错 ， 所 以 选择 更 低 的 学 习 率 也 没有 什么 问题 。 














这 看 起 来 相当 简单 。 然 而 , 通过 训练 代价 来 选择 7 和 之 前 提 到 的 通过 验证 集 确定 超 参 数 的 说 
法 有 点 矛盾 。 实 际 上 ,使 用 验证 准确 率 来 选择 正则 化 超 参数 、 小 批量 大 小 、 层 数 及 隐藏 神经 元 数 
目 等 神经 网 络 参 数 ， 而 为 何 对 学 习 率 要 用 不 同 的 方法 呢 ? 坦白 地 说 , 这 些 选择 其 实 是 我 个 人 的 偏 
好 和 习惯 罢了 ,因为 其 他 超 参 数 倾 向 于 提升 测试 集 上 最 终 的 分 类 准确 率 , 所 以 通过 验证 准确 率 来 
选择 它们 更 合理 一 些 , 而 学 习 率 只 是 偶尔 影响 最 终 的 分 类 准确 率 , 其 主要 作用 是 控制 梯度 下 降 的 
步 长， 而 监控 训练 代价 是 检测 步 长 过 大 的 方法 ,所 以 这 其 实 只 是 个 人 偏好 。 在 学 习 的 前 期 , 如果 
验证 准确 率 提升 ， 训 练 代价 通常 会 下 降 ， 所 以 在 实践 中 以 哪 种 方式 衡量 对 判断 没有 太 大 影响 。 












































提前 停止 以 确定 训练 轮 数 : 如 前 所 述 ,提前 停止 指 每 轮训 练 结 束 , 都 要 计算 验证 集 上 的 分 类 
准确 率 。 若 准确 率 不 再 提升 ， 就 终止 它 。 这 样 便于 确定 训练 轮 数 ， 也 意味 着 无 须 在 意 训练 轮 数 和 
其 他 超 参数 的 关联 ， 而 且 该 过 程 还 是 自动 的 。 另 外 ， 提 前 停止 也 有 助 于 避免 过 拟 合 。 尽 管 试验 前 
期 不 采用 提前 停止 ,这 样 可 以 发 现 过 拟 合 的 信号 ,并 据 此 选择 正则 化 方法 ,但 提前 停止 仍然 有 用 。 

















若 想 把 握 提 前 停止 的 时 机 ， 需 要 明白 “分 类 准确 率 不 再 提升 ”的 含义 。 如 前 所 述 ， 分 类 准确 
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率 在 整体 趋势 下 降 时 仍 会 拌 动 或 者 振荡 。 如 果 在 准确 率 刚 开始 下 降 时 便 停止 , 可 能 错过 更 好 的 选 
择 。 一 种 不 错 的 解决 方案 是 ， 如 果 分 类 准确 率 在 一 段 时 间 内 不 再 提升 ， 就 终止 训练 。 例 如 对 于 
MNIST 图 像 分 类 问题 ， 如 果 分 类 准确 率 在 10 轮 左右 训练 都 没有 提升 ， 可 以 将 其 终止 。 这 样 不 仅 
可 以 确保 不 会 终止 得 过 早 ， 还 能 避免 日 日 苗 等 。 















































这 种 “训练 10 轮 ， 不 提升 便 终止 ”的 规则 很 适合 MNIST 图 像 分 类 问题 的 初期 探索 。 然 而 ， 
神经 网 络 有 时 会 在 某 个 分 类 准确 率 附 近 停 滞 很 长 时 间 , 之 后 才 会 有 提升 。 如 果 想 获得 相当 好 的 表 
现 ， 这 条 规则 可 能 太 过 激进 了 一 一 停止 得 太 草率 。 所 以 ， 建 议 仅仅 在 初期 采用 “训练 10 轮 ， 不 
提升 便 终 止 ”规则 ， 以 理解 神经 网 络 的 训练 方式 ， 然 后 逐步 选择 更 多 轮 数 ， 比 如 训练 20 轮 不 提 
升 便 终 止 、 训 练 50 轮 不 提升 便 终止 ， 以 此 类 推 。 当 然 ， 这 就 引入 了 新 的 需要 优化 的 超 参数 。 实 
践 中 , 通过 设置 超 参数 来 得 到 好 的 结果 是 很 方便 的 。 类 似 地 , 对 不 同 于 MNIST 图 像 分 类 的 问题 ， 
这 条 规则 可 能 太 过 激进 或 者 太 过 保守 , 视 具体 问题 而 异 。 然 而 ,进行 一 些小 的 试验 便于 确定 提前 
终止 的 策略 。 






















































































MNIST 图 像 分 类 试验 中 没有 采用 提前 终止 。 原 因 是 前 面 比 较 了 不 同 的 学 习 方 法 。 这 样 的 比 
较 其 实 适 合 使 用 同样 的 训练 轮 数 。 但 是 ， 在 network2.py 中 采用 提前 终止 还 是 很 有 价值 的 。 


问 题 
口 修改 network2.py 来 实现 提前 终止 ,并 将 “训练 n 轮 , 不 提升 便 终 止 ” 策略 中 的 n 设 置 为 可 变 
参数 。 





口 你 能 想 出 其 他 提前 终止 策略 吗 ? 理想 中 , 采用 策略 能 得 到 更 高 的 验证 准确 率 而 无 须 训练 太 久 。 
请 在 network2.py 中 实现 你 的 想法 ， 并 通过 试验 与 “训练 10 轮 , 不 提升 便 终 止 ” 策略 的 验证 
准确 率 和 训练 轮 数 进行 比较 。 











调整 学 习 率 : 前 面 一 直 将 学 习 率 设置 为 常量 ,但 采用 可 变 学 习 率 往往 更 有 效 。 在 学 习 的 前 期 ， 
权重 可 能 非常 糟糕 ,所 以 可 以 使 用 较 高 的 学 习 率 来 让 权重 更 快 地 变化 ,之 后 可 以 降低 学 习 率 ， 以 
此 做 出 微调 。 


























如 何 设置 学 习 率 呢 ?” 其 实 有 很 多 方法 。 一 种 自然 的 做 法 是 提前 停止 ， 即 保持 学 习 率 为 一 个 常 
量 ， 直 到 验证 准确 率 开始 降低 ， 然 后 调整 学 习 率 ， 比 如 按照 1/2 或 者 1/110。 重 复 此 过 程 车 干 次 ， 
直到 学 习 率 变 为 初始 值 的 1/11024 (或 者 1/1000 )。 





























可 变 学 习 率 可 以 提升 性 能 , 但 选择 过 多 也 是 困扰 , 可 能 需要 花费 很 多 精力 才能 优化 学 习 规则 。 
对 于 试验 ,建议 使 用 单一 的 常量 作为 学 习 率 ,这 样 做 能 得 到 比较 好 的 近似 。 之 后 若 想 获得 更 好 的 
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性 能 ， 可 以 根据 给 出 的 资料 "， 按 照 特定 规则 进行 试验 。 


练 习 
更 改 network2.py 实现 学 习 规 则 : 验证 准确 率 满足 “训练 10 轮 , 不 提升 便 终 止 ” 策略 时 减 
半 ， 当 学 习 率 降 到 初始 值 的 1/128 时 终止 。 





正则 化 参数 : 建议 开始 时 不 包含 正则 化 (4 = 0.0 )， 以 确定 7 的 值 。 选 定 7 后 ， 可 以 使 用 验 
证 数据 来 选择 好 的 4 值 。 从 4 =1.0 开始 尝试 ， 然 后 根据 验证 集 上 的 性 能 按照 1/10 增 减 其 值 。 一 
旦 找到 好 的 量 级 ， 就 可 以 改进 4 值 。 完 成 后 可 以 返回 并 重新 优化 7 。 

















练习 
使 用 梯度 下 降 算法 来 寻找 好 的 超 参 数 〔( 例 如 4 和 7 ) 值得 尝试 ， 但 存在 哪些 障碍 呢 ? 








如 何 选择 超 参数 : 如 果 你 使 用 推荐 的 策略 ， 可 能 会 发 现 自己 找到 的 7 和 4 不 总 是 和 本 书 给 出 
的 一 致 ， 原 因 是 篇 幅 所 限 ， 我 没有 进一步 优化 超 参 数 。 前 面 比较 了 不 同 的 学 习 方 法 ， 例 如 比较 了 
二 次 代价 函数 和 交叉 焙 代 价 函 数 ， 比 较 了 权重 初始 化 的 新 旧 方 法 ， 是 否 使 用 正则 化 ， 等 等 。 为 了 让 
这 些 比较 有 意义 ， 通 常会 保持 超 参 数 不 变 (或 者 进行 适当 调整 )。 当 然 ， 理 论 上 相同 的 超 参 数 不 
可 能 对 于 各 种 学 习 方 法 都 是 最 优 的 ， 所 以 选用 那些 超 参 数 多 是 折 中 的 考虑 。 






































相 较 于 这 种 折 中 ， 其实 本 可 以 尝试 优化 每 种 方法 的 超 参数 选择 。 理 论 上 ， 这 会 是 更 好 、 更 合 
理 的 方式 ， 因 为 可 以 了 解 每 种 方法 的 最 佳 效果 。 前 面 已 经 进行 了 众多 比较 ,实践 中 这 会 耗费 巨大 
的 计算 资源 。 这 也 是 为 什么 前 面 以 折 中 方式 来 选择 尽 可 能 好 ( 却 不 一 定 最 优 ) 的 超 参数 。 























小 批量 大 小 : 如 何 设置 小 批量 的 大 小 呢 ? 对 于 这 个 问题 ,首先 假设 正在 进行 在 线 学 习 ， 即 采 
用 大 小 为 1 的 小 批量 。 











关于 在 线 学 习 的 一 个 担忧 是 使 用 只 有 一 个 样本 的 小 批量 会 导致 错误 估计 梯度 。 实 际 上 , 误差 
不 是 问题 ， 原 因 是 单一 的 梯度 估计 不 需要 绝对 精确 。 我 们 需要 的 是 估计 足够 精确 ， 能 确保 代价 函 
数 不 断 下 降 。 就 像 你 现在 要 去 北极 点 ,但 是 只 有 一 个 不 大 精准 的 ( 差 10 ~ 20 度 ) 指南 针 。 如 果 
你 频繁 查看 指南 针 ， 指 南 针 会 在 平均 状况 下 指出 正确 的 方向 ， 所 以 最 后 也 能 抵达 北极 点 。 
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基于 此 观点 ， 似 乎 我 们 需要 使 用 在 线 学 习 。 实 际 上 ， 情况 更 为 复杂 。 第 2 章 的 问题 中 提 到 ， 
可 以 使 用 和 矩阵 技术 来 同时 对 小 批量 中 的 所 有 样本 计算 梯度 更 新 ， 而 不 是 进行 循环 。 所 以 ,取决 于 











GD Dan Claudiu Ciresan, Ueli Meier Luca Maria Gambardella, et al. Deep, Big, Simple Neural Nets Excel on Handwritten 
Digit Recognition, 2010. 
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硬件 和 线性 代数 库 的 实现 细节 ， 就 小 批量 大 小 为 100 的 数据 来 说 ， 这 会 比 逐 个 循环 快 很 多 ， 可 能 
是 50 次 和 100 次 的 差别 。 
































看 起 来 帮助 不 大 。 使 用 大 小 为 100 的 小 批量 ， 学 习 规则 如 下 : 


WoW = wv (100) 




















这 是 对 小 批量 中 的 所 有 训练 样本 求 和 ， 而 在 线 学 习 是 ; 
ww =w-nVC, (101) 


即使 它 需 要 执行 50 次 ， 结 果 仍 好 于 在 线 学 习 ， 因 为 在 线 学 习 更 新 太 过 频繁 。 假 设 对 于 小 批 
量 ， 将 学 习 率 扩大 100 倍 ， 更 新 规则 变 为 : 





ww =w-n VC, (102) 





这 很 像 进行 了 100 次 在 线 学 习 ， 但 是 仅仅 花费 了 50 次 在 线 学 习 的 时 间 。 当 然 ， 其实 不 是 同 
样 的 100 次 在 线 学 习 ， 因 为 小 批量 中 的 VC., 衡量 的 是 相同 的 权重 ， 而 在 线 学 习 中 学 习 是 累加 的 。 
看 来 使 用 更 大 的 小 批量 还 是 能 显著 加 速 训练 。 
































此 , 选择 合适 的 小 批量 大 小 也 是 一 种 折 中 。 太 小 的 话 , 矩阵 库 的 快速 计算 优势 发 挥 不 出 来 ; 
太 大 的 话 , 无 法 频繁 地 更 新 权重 。 需 要 选择 一 个 适中 的 值 才 能 使 学 习 速 度 最 大 化 。 好 在 小 批量 大 
小 的 选择 其 实 是 相对 独立 的 超 参数 ( 神经 网 络 整体 架构 外 的 参数 )， 所 以 无 须 优化 其 他 参数 来 确 
定 它 。 因 此 ， 可 行 的 做 法 是 为 其 他 参数 选择 某 些 可 以 接受 的 值 (不 需要 是 最 优 的 )， 然 后 尝试 不 
同 的 小 批量 大 小 ， 如 前 所 示 调 整 7 ， 画 出 验证 准确 率 的 值 随时 间 ( 非 轮 数 ) 变化 的 图 像 ， 选 择 提 
升 性 能 最 显著 的 那个 小 批量 大 小 ， 然 后 优化 其 他 参数 。 









































当然 ， 前 面 没 有 做 这 些 优 化 。 实 际 上 , 我 们 的 实现 并 没有 用 到 小 批量 快速 更 新 方法 ， 只 
单 使 用 了 大 小 为 10 的 小 批量 。 其 实 可 以 通过 缩减 小 批量 大 小 来 提速 。 前 面 没有 这 样 做 ， 旨 
示 小 批量 大 于 1 的 情况 ,而 且 实践 经 验 表 明 提 升 效果 其 实 不 明显 。 在 实践 中 ,大 多 数 情况 肯 
采取 更 快 的 小 批量 更 新 策略 ， 然 后 花费 时 间 和 精力 优化 小 批量 大 小 ， 提 升 整体 速度 。 





也 压 和 
澜 至 








要 








自动 化 技术 : 前 面 介 绍 了 手动 优化 超 参 数 的 很 多 启发 式 规则 。 手动 选 择 当 然 是 理解 神经 网 络 
行为 的 方法 , 但 现实 是 , 很 多 工作 已 经 实现 自动 化 了 。 常 用 的 技术 有 网 格 搜索 ( grid search )， 可 以 
系统 化 地 对 超 参数 空间 的 网 格 进 行 搜索 。 关 于 网 格 搜 索 的 作用 和 限制 ( 以 及 易于 实现 的 变 体 )， 
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在 James Bergstra 和 Yoshua Bengio 于 2012 年 发 表 的 论文 "中 均 有 讨论 。 很 多 更 精细 的 方法 也 陆续 
被 提出 ,这 里 不 再 一 一 详 述 , 但 2012 年 发 表 的 使 用 贝 叶 斯 方法 自动 优化 超 参数 的 论文 >， 启发 了 
其 他 研究 人 员 。 

















小 结 : 前 面 介绍 的 经 验 可 能 不 会 让 神经 网 络 产生 最 佳 结果 , 但 可 以 作为 好 的 开始 和 改进 的 基 
础 , 尤其 着 重 讨论 了 超 参数 的 选择 。 实践 中 , 超 参数 之 间 存 在 很 多 关系 。 你 可 能 使 用 w 进行 试验 ， 
发 现 效果 不 错 ， 然 后 优化 4 ， 发 现 义 入 混在 一 起 了 。 在 实践 中 ,反复 尝试 是 常事 ,最 终 才 能 找 
到 合适 的 值 。 总 之 ,启发 式 规则 其 实 都 是 经 验 ， 而 非 金 科 玉 律 。 应 该 注意 那些 无 效 的 尝试 ,然后 
继续 试验 ， 这 意味 着 需要 更 细致 地 监控 神经 网 络 的 行为 ， 特 别 是 验证 集 上 的 准确 率 。 




















选择 超 参数 的 难度 在 于 选择 方法 太 分 散 ， 这些 方 法 分 散在 许多 研究 论文 、 软 件 程序 中 ,甚至 
只 在 某 个 研究 人 员 的 大 脑 中 ,因而 困难 重重 。 某 些 论文 的 观点 甚至 互相 矛盾 ， 当 然 ， 有 一 些 特 别 
有 用 的 论文 对 这 些 繁杂 的 技术 做 了 梳理 和 总 结 。2012 年 Yoshua Bengio 发 表 的 一 篇 论文 ?给 出 了 
实践 中 使 用 反 疝 传播 算法 和 梯度 下 降 算法 训练 神经 网 络 的 一 些 推 荐 策略 。 Bengio 对 很 多 问题 的 讨 
论 更 细致 ， 其 中 包含 如 何 进行 系统 化 的 超 参 数 搜索 。 男 一 篇 非常 好 的 论文 "是 1998 年 由 Yann 
LeCun、Léon Bottou、Genevieve Orr 和 Klaus-Robert Miiller 发 表 的 。 这 些 论文 汇集 在 2012 年 出 版 
的 Neural Networks: Tricks of the Trade 中 ， 这 本 书 介绍 了 训练 神经 网 络 的 很 多 常用 技巧 ， 价 格 不 
低 ， 但 很 多 内 容 已 被 作者 分 享 到 互联 网 上 了 ， 若 有 兴趣 可 以 尝试 搜索 。 
































阅读 这 些 文章 时 , 特别 是 进行 试验 时 ,你 会 更 清楚 超 参数 优化 问题 并 未 完全 解决 ,总 有 一 些 
技巧 能 够 提升 性 能 。 有 人 句 关 于 作家 的 谚语 是 :“ 书 从 来 不 会 完结 ， 只 会 放弃 继续 。” 这 点 在 神经 网 
络 优化 上 也 有 体现 : 超 参数 的 空间 太 大 了 ， 所 以 人 们 无 法 彻底 完成 优化 ， 只 能 将 问题 留 给 后 人 。 
你 的 目标 应 是 确立 一 个 工作 流 以 快速 优化 超 参数 , 这 样 可 以 留 有 足够 的 灵活 性 来 尝试 对 重要 的 超 
参数 进行 精细 优化 。 











设 定 超 参数 的 挑战 让 一 些 人 抱怨 , 相 较 于 其 他 机 器 学 习 算 法 ,神经 网 络 需 要 投入 更 多 的 工作 。 
其 中 一 种 论调 是 :“ 的 确 , 参数 合适 的 神经 网 络 可 能 会 在 这 问题 上 展现 最 佳 性 能 , 但 随机 森林 (或 
者 SVM 等 ) 也 能 应 付 ,我 没有 时 间 搞 清楚 哪个 神经 网 络 最 好 。” 当然 ,从 实践 者 的 角度 来 说 ， 肯 
定 倾 向 于 更 易 使 用 的 技术 , 这 在 刚 开 始 处 理 某 个 问题 时 尤为 明显 ,因为 那 时 都 不 确定 机 顺 学 习 算 
法 能 解决 问题 。 但 是 ， 如 果 获 得 最 佳 性 能 是 最 重要 的 目标 ， 可 能 需要 尝试 更 复杂 精妙 的 方法 。 如 

































































巧 








QD James Bergstra, Yoshua Bengio. Random search for hyper-parameter optimization, 2012. 

© Jasper Snoek, Hugo Larochelle, Ryan Adams. Practical Bayesian optimization of machine learning algorithms, 2012. 
@) Yoshua Bengio. Practical recommendations for gradient-based training of deep architectures, 2012. 

由 Yann LeCun, Léon Bottou, Genevieve Orr, et al. Efficient BackProp, 1998. 
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果 机 器 学 习 从 来 都 简单 的 话 自然 再 好 不 过 ， 但 这 并 没有 什么 先 验 理由 。 


3.6 ”其 他 技术 


本 章 所 讲 的 技术 都 很 值得 学 习 , 但 这 并 不 是 讨论 它们 的 唯一 原因 , 更 重要 的 其 实 是 介绍 神经 
网 络 中 可 能 出 现 的 问题 以 及 分 析 和 解决 这 些 问 题 的 方式 ， 即 如 何 思考 神经 网 络 。 下 面 简单 介绍 其 
他 一 些 技术 。 这 些 介绍 虽 不 及 之 前 深入 ， 但 也 能 展现 神经 网 络 中 技术 的 多 样 性 。 





















































3.6.1 随机 梯度 下 降 算法 的 变化 形式 

对 于 MNIST 数字 分 类 问题 ， 通 过 反 向 传播 进行 的 随机 梯度 下 降 算法 表现 不 错 。 当 然 ， 还 有 
其 他 很 多 方法 能 优化 代价 函数 。 有 时 这 些 方法 比 采用 小 批量 随机 梯度 下 降 算法 的 效果 更 好 , 下 面 
介绍 其 中 两 种 方法 : Hessian 技术 和 动量 技术 。 





Hessian 技术 : 为 了 更 好 地 讲解 该 技术 ， 先 把 神经 网 络 放 在 一 边 ， 而 考虑 最 小 化 代价 函数 C 
的 抽象 问题 ,其 中 C 是 有 多 个 参数 的 函数 ，w=w,Ww,… ， 所 以 C=C(w) 。 借 助 泰勒 展开 式 ， 代 
价 函 数 可 以 在 点 w 处 近似 为 : 








C(w+Aw)=C(w)+», Aw, 
7 
103 
1 O°C 
十 去 2 4 Aw, + 
之 天 OW,OW 
可 以 将 其 重 写成 : 

CO MW = CON+ VC M+ 3 AW HAw+ (104) 



































其 中 VC 是 通常 的 梯度 向 量 ， 互 是 Hessian 矩阵 , 第 大 项 是 6"C16w6w 。 假 设 通过 丢弃 更 高 阶 
的 项 来 近似 C ， 则 有 : 


COwt AW) ~ CO + VC Mw+ 7 Aw HA (105) 


运用 微 积 分 ， 能 证 明 右 式 可 以 最 小 化 "， 只 要 令 : 











@ 严格 说 来 ， 会 得 到 一 个 最 小 值 ， 而 不 仅仅 是 一 个 极 值 ， 需 要 假设 Hessian 抢 阵 是 正定 的 。 直 观 而 言 ， 这 意味 着 机 
数 C 看 起 来 局 部 像 一 个 山谷 ， 而 不 是 一 座 山 或 一 个 马 蒋 。 
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Aw=-H"VC (106) 

















根据 (105) 是 代价 函数 较 好 的 近似 表达 式 ,我 们 期 望 从 点 wm 移动 到 w+4w= mw- 万 VC 可 以 显 
著 缩小 代价 函数 值 ， 一 种 可 能 的 算法 如 下 : 
口 选择 开始 点 w ; 
口 更 新 w 到 新 点 w =w-H'VC ， 其 中 五 和 VC 是 在 w 处 计算 出 来 的 ; 
口 更 新 w' 到 新 点 w =w 一 HV'C ， 其 路 ' 和 VYV'C 是 在 w 处 计算 出 来 的 …… 





























实际 应 用 中 ，(105) 是 唯一 的 近似 ， 并 且 选 择 更 小 的 步 长 会 更 好 。 可 以 通过 重复 使 用 改变 量 
4w= 7H"VC 来 改变 w ,其 中 7 就 是 学 习 率 。 


这 种 最 小 化 代价 函数 的 方法 常 称 作 Hessian 技术 或 者 Hessian 优化 。 理 论 和 实践 都 表明 
Hessian 方法 比 常规 的 梯度 下 降 算 法 收敛 速度 更 快 。 通 过 引入 代价 函数 的 二 阶 变 化 信息 ， 可 以 让 
Hessian 方法 避免 梯度 下 降 算 法 中 常 遇 到 的 多 路 径 问 题 ， 而 且 ， 反 向 传播 算法 的 某 些 版 本 也 可 用 
于 计算 Hessian 矩阵 。 














既然 Hessian 优化 这 么 强大 ， 为 何不 在 神经 网 络 中 使 用 它 呢 ? 原因 是 ， 尽 管 Hessian 优化 有 
很 多 不 错 的 特性 ， 但 它 其 实 有 一 个 短 板 : 实践 中 很 难 应 用 。 这 个 问题 的 部 分 原因 是 Hessian 矩阵 太 
大 了 。 假 设 有 一 个 包含 10 个 权重 和 偏 置 的 神经 网 络 ， 那 么 对 应 的 Hessian 矩阵 会 有 10  x10 =10” 
个 元 素 。 数量 非常 庞大 ! 因此 在 实践 中 计算 百 "VC 极其 困难 。 不过, 这 并 不 代表 了 解 它 没有 用 。 
实际 上 ， 有 很 多 受 Hessian 优化 启发 而 来 的 梯度 下 降 算 法 的 变 体 ， 能 避免 产生 庞大 抢 阵 的 问题 。 
下 面 介绍 其 中 一 个 基于 动量 的 梯度 下 降 算 法 。 


























基于 动量 的 梯度 下 降 算 法 : Hessian 优化 的 优点 是 不 仅 考 虑 了 梯度 , 还 包含 梯度 的 变化 信息 。 
基于 动量 的 梯度 下 降 算法 正 是 出 于 这 种 推断 , 并 且 避 免 了 二 阶 导数 矩阵 的 出 现 。 为 了 理解 动量 技 
术 ,， 可 以 回想 关于 梯度 下 降 的 原始 图 像 ， 当 时 研究 了 一 个 小 球 滚 落 山谷 的 场景 ， 而 且 发 现 梯度 下 
降 类 似 于 小 球 深 向 谷底 。 动 量 技术 修改 了 梯度 下 降 算 法 的 两 处 ， 使 之 类 似 于 该 物理 场景 。 首先， 
为 想 要 优化 的 参数 引入 了 速度 ( velocity ) 的 概念 。 梯 度 的 作用 就 是 改变 速度 ， 而 不 是 直接 改变 
位 置 ,就 如 同 物 理学 中 的 力 改 变速 度 ， 只 会 间接 地 影响 位 置 。 其 次 , 动量 方法 引入 了 一 种 摩擦 力 
的 项 ， 用 于 逐渐 地 减 慢 速度 。 









































下 面 给 出 更 准确 的 数学 描述 。 引 入 速度 变量 v= v,v,,… ， 其 中 每 一 个 对 应 w 变量 "， 然 后 将 
梯度 下 降 更 新 规则 w 一 w = wnVC 改 成 : 





g 在 神经 网 络 中 ,， 凡 变量 当然 也 包括 所 有 权重 和 偏 置 。 
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vv =MU-nVC (107) 


ww =w+y (108) 


在 这 些 方程 中 ，4 这 个 超 参 数 用 于 控制 阻碍 或 者 摩擦 力 的 量 。 为 了 理解 这 两 个 方程 ， 可 以 考 
虑 当 w=1 时 ,对 应 没有 任何 摩擦 力 。 所 以 ,此 时 可 以 看 到 力 VC 改变 了 速度 y， 而 速度 控制 着 w 
的 变化 率 。 由 常理 推断 ， 可 以 通过 重复 增加 梯度 项 来 构造 速度 。 这 表示 ， 如 果 梯 度 在 某 些 学 习 过 
程 中 几乎 在 同样 的 方向 上 ， 就 可 以 得 到 那个 方向 上 比较 大 的 移动 量 。 试 想 如 果 直 接 按 坡度 下 降 ， 
会 发 生 什 么 ， 如 图 3-35 所 示 。 



































图 3-35 


每 一 步 速度 都 不 断 增 大 , 所 以 小 球 会 越 来 越 快 地 到 达 谷 底 , 这 样 就 能 够 确保 动量 技术 比 常规 
的 梯度 下 降 算 法 运行 得 更 快 。 当 然 ， 这 里 也 存在 问题 : 一 旦 达到 谷底 ， 就 会 跨越 过 去 ; 或 者 ， 如 
果 梯 度 本 该 快速 改变 却 没有 改变 , 那么 会 在 错误 的 方向 上 移动 太 多 。 这 就 是 在 方程 (107) 中 使 用 4 
这 个 超 参数 的 原因 。 前 面 提 到 ，% 可 以 控制 系统 中 摩擦 力 的 大 小 ， 具 体 而 言 ， 应 该 将 1-4 看 作 
摩擦 力 的 量 。 当 y=1 时 , 没有 摩擦 力 ， 速 度 完 全 由 梯度 VC 决定 。 若 1 = 0 ， 就 存在 很 大 的 摩擦 
力 ， 速 度 无 法 累加 ,方程 (107) 和 方程 (108) 就 变 成 了 常规 的 梯度 下 降 算法 w 一 w =w-nVC 。 在 
实践 中 ,使 用 0 到 1 的 4w 值 可 以 避免 过 量 又 能 累加 速度 。 可 以 使 用 hold out 方 法 验证 数据 集 来 选 
择 合适 的 4 值 ， 就 像 之 前 选择 和 4 那样。 






























































本 书 避 免 为 & 命 名， 原因 是 4 的 标准 名 称 momentum co-efficient 不 是 很 好 ， 容 易 引 起 困惑 ， 
因为 4 并 不 是 物理 学 中 代表 动量 的 符号 ,而 更 像 摩擦 力 的 概念 ,然而 ,这 个 术语 已 经 广泛 使 用 了 ， 
所 以 本 书 继续 使 用 它 。 
































动量 技术 的 一 个 优点 是 基本 上 不 需要 改动 梯度 下 降 算 法 太 多 代码 即 可 实现 。 我 们 可 以 如 前 所 
示 继 续 使 用 反 向 传播 来 计算 梯度 ， 然 后 随机 选择 小 批量 ， 这 样 可 以 利用 Hessian 技术 一 一 使 用 梯 
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度 的 变化 信息 ， 也 仅仅 需要 微调 。 实 践 中 ,动量 技术 很 常用 ， 也 能 加 速 学 习 。 


练 习 
口 如 果 使 用 w>1 会 有 什么 问题 ? 
口 如 果 使 用 <0 会 有 什么 问题 ? 


问 题 
在 network2.py 中 增加 基于 动量 的 随机 梯度 下 降 算 法 。 


优化 代价 函数 的 其 他 方法 : 优化 代价 函数 的 方法 还 有 很 多 , 但 并 没有 哪 种 方法 公认 最 佳 。 随 
着 对 神经 网 络 理 解 的 深入 ,不 妨 尝试 一 下 其 他 优化 技术 ,了 解 它们 的 工作 原理 、 优 势 和 劣势 ， 以 
及 在 实践 中 如 何 应 用。 前面 提 到 的 一 篇 论文 "介绍 并 比较 了 这 些 技术 ， 涵 盖 共 斩 梯 度 下 降 方法 和 
BFGS 方法 ( 以 及 与 之 相关 的 L-BFGS 方法 )。 另 一 种 效果 出 色 的 技术 ”是 Nesterov 的 梯度 加 速 技 
术 , 该 技术 改进 了 动量 技术 。 然 而 ,对 于 很 多 问题 ,常规 的 随机 梯度 下 降 算法 已 经 足够 ， 特别 是 
采用 动量 技术 后 效果 很 好 了 ， 所 以 后 面 会 继续 使 用 随机 梯度 下 降 算 法 。 



































3.6.2 ”其 他 人 工 神经 元 模型 


前 面 使 用 的 神经 元 都 是 sigmoid 神经 元 。 理 论 上 讲 ， 由 这 类 神经 元 构建 而 成 的 神经 网 络 可 以 
计算 任何 函数 。 实 践 中 ,使 用 其 他 神经 元 模型 有 时 表现 好 于 sigmoid 神经 网 络 。 取 决 于 不 同 的 应 
用 ,基于 其 他 神经 元 类 型 的 神经 网 络 可 能 学 习 得 更 快 , 更 容易 泛 化 到 测试 集 ， 或 者 两 者 此 有 。 下 
面 介绍 其 他 一 些 模型 选择 ， 某 些 可 以 考虑 常用 。 
































最 简单 的 变 体 可 能 就 是 tanh 神经 元 了 ， 它 使 用 tanh 本 数 替换 sigmoid 函数 。 输 入 为 x、 权 
重 问 量 为 w、 偏 置 为 b 的 tanh 神经 元 的 输出 是 : 











tanh(w:x+b) (109) 


tanh 是 双 曲 正切 函数 ， 它 和 sigmoid 神经 元 关系 密切 。 回 想 一 下 tanh 也 数 的 定义 : 


En eh (110) 
e 十 


= 


© 





QD Yann LeCun, Léon Bottou, Genevieve Orr, et al. Efficient BackProp, 1998. 
© Ilya Sutskever, James Martens, George Dahl. On the importance of initialization and momentum in deep learning, 2012. 
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进行 简单 的 代数 运算 ， 可 得 : 
_1+tanh(z/2) 


2 


也 就 是 说 ，tanh 函数 仅仅 是 sigmoid 函数 的 按 比 例 变 化 版 本 ， 其 形状 也 与 之 相似 ， 如 图 3-36 
所 示 。 


ar 人 (111) 








tanh 国 数 
1.0- 一 
05 
0.0 { T T 2 
-4 -3 -2 -1 m 1 2 3 4 
-0.5 
-1.0- —— 
图 3-36 




















这 两 个 函数 之 间 的 一 个 差异 是 tanh 神经 元 输出 的 值 域 是 (-1, 1) 而 非 (0, 1)。 这 意味 着 如 果 基 于 
tanh 神经 元 构建 ， 可 能 需要 将 最 终 的 输出 〈 取决 于 应 用 的 细节 和 输入 ) 归 一 化 ， 这 与 sigmoid 神 
经 网 络 略 微 不 同 。 























类 似 于 sigmoid 神经 元 ， 理 论 上 基于 tanh 神经 元 的 神经 网 络 可 以 计算 任何 将 输入 映射 到 
(~-1, 1) 的 函数 ”"， 而 且 反 向 传播 算法 和 随机 梯度 下 降 算 法 等 也 能 轻松 用 于 由 tanh 神经 元 构成 的 神 
经 网 络 。 








练 习 


证 明 方程 (111)。 



































申 经 网 络 应 该 使 用 什么 类 型 的 神经 元 呢 ， 是 tanh 还 是 sigmoid? 其 实 并 没有 先 验 的 答案 ， 然 
而 一 些 理 论 和 实践 表明 tanh 有 时 表现 得 更 好 ”。 下 面 简单 介绍 一 下 关于 tanh 的 一 个 理论 观点 。 假 


5 

















@ 对 于 tanh 神经 元 和 sigmoid 神经 元 ， 以 及 下 面 要 讨论 的 修正 线性 神经 元 ， 该 说 法 存在 技术 上 的 一 些 预 先 声 明 ， 然 
而 笼统 地 讲 ， 通 常 可 以 把 神经 网 络 理解 为 能 以 任意 精度 近似 任何 函数 。 

© Yann LeCun, Léon Bottou, Genevieve Orr, et al. Efficient BackProp, 1998. 
Xavier Glorot, Yoshua Bengio. Understanding the difficulty of training deep feedforward networks, 2010. 
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设 使 用 sigmoid 神经 元 ， 所 有 激活 值 都 是 正 数 ， 考 虑 一 下 权重 wi 输入 到 第 (1+1) 层 的 第 j 个 神经 
元 上 。 根据 反 向 传播 规则 , 相关 梯度 是 a6,"”。 因 为 所 有 激活 值 都 是 正 数 , 所 以 梯度 的 符号 和 65," 
一 致 。 这 意味 着 如 果 6 六 为 正 ， 那 么 梯度 下 降 时 所 有 权重 w 都 会 减少 ; 如 果 5/” 为 负 ， 那 么 梯 
度 下 降 时 所 有 权重 wi 都 会 增加 。 换言之 , 针对 相同 神经 元 的 所 有 权重 都 会 一 起 增加 或 者 一 起 减 
少 。 这 就 有 问题 了 ,因为 某 些 权重 可 能 需要 相反 的 变化 。 这 样 的 话 ， 某 些 输入 激活 值 有 相反 的 符号 
才 行 ， 而 用 tanh 蔡 换 就 能 实现 。 因 为 tanh 是 关于 0 对 称 的， 所 以 tanh(-z) = -tanh(z) 。 我 们 甚至 
期 望 隐 藏 层 的 激活 值 能 够 在 正 负 间 保 持平 衡 ， 这 样 可 以 保证 权重 更 新 没有 系统 化 的 单方 面 偏 置 。 


如 何 看 待 这 个 论点 呢 ? 尽管 论点 是 建设 性 的 ， 但 还 只 是 一 条 启发 式 规则 ， 而 非 确切 证 明了 
tanh 函数 一 定 优 于 sigmoid 函数 ， 可 能 sigmoid 神经 元 还 有 其 他 特性 可 以 补益 。 实 际 上 ， 对 于 很 
多 任务 ， 在 实践 中 tanh 神经 元 带 来 的 性 能 提升 非常 微弱 ， 甚 至 没有 。 有 目前 还 没有 简单 准确 的 规 
则 可 以 判断 对 于 特定 的 应 用 哪 种 神经 元 学 习 得 更 快 ， 或 者 泛 化 能 力 更 强 。 






































另 一 个 变 体 是 修正 线性 神经 元 或 者 修正 线性 单元 (ReLU ),。 输入 为 x 、 权 重 向 量 为 w 、 偏 置 3 
为 5b 的 修正 线性 单元 神经 元 的 输出 是 : 








max(0,w:x+Db) (112) 
函数 max(0, z) 的 图 像 如 图 3-37 所 示 。 


max(0, z) 











一 过 
一 人 4 二 请 
图 3-37 
显然 ,这 样 的 神经 元 与 sigmoid 和 tanh 都 不 同 。 修 正 线性 单元 也 能 用 于 计算 任何 函数 ， 可 以 








使 用 反 向 传播 算法 和 随机 梯度 下 降 算 法 进行 训练 。 


132 第 3 章 改进 神经 网 络 的 学 习 方法 











何 时 应 该 使 用 修正 线性 单元 而 非 其 他 神经 元 呢 ? 近年 来 的 一 些 图 像 识别 研究 工作 "发 现 了 使 
用 修正 线性 单元 的 好 处 。 然 而 ， 就 像 对 tanh 神经 元 那样 ， 我 们 对 修正 线性 单元 何 时 表现 更 好 及 
其 原因 还 不 其 了 解 。 关于 这 个 问题 , 可 以 回想 一 下 sigmoid 神经 元 在 饱和 时 ( 输出 接近 0 或 1 时 ) 
停止 学 习 的 问题 ， 本 章 也 多 处 提 到 o' 降低 了 梯度 ， 使 学 习 减 缓 的 问题 ，tanh 神经 元 也 有 类 似 的 
问题 。 与 之 相对 ,提高 修正 线性 单元 的 带 权 输入 并 不 会 导致 其 饱和 ,也 就 不 存在 那样 的 学 习 速 度 
变 慢 。 另 外 ， 当 带 权 输 入 是 负数 时 ,梯度 就 消失 了 ， 这样 神经 元 就 完全 停止 了 学 习 。 这 些 有 助 于 
理解 修正 线性 单元 何 时 何故 更 优 。 



































前 面 提 到 了 不 确定 性 一 一 目前 还 没有 坚实 的 理论 能 指导 如 何 选择 激活 函数 。 实 际 上 , 这 个 问 
题 更 为 复杂 ,因为 其 实 是 有 无 穷 多 可 能 的 激活 函数 。 对 于 给 定 问 题 , 什么 激活 函数 最 好 ?什么 激 
活 函数 能 让 学 习 最 快 ” 哪个 能 带 来 最 高 的 测试 准确 率 ? 其 实 并 没有 太 多 深入 、 系 统 的 研究 工作 。 
理想 中 ,有 理论 能 准确 细致 地 告诉 我 们 如 何 选择 激活 函数 。 当 然 , 不 应 该 让 这 种 缺失 阻碍 我 们 学 
习 和 应 用 神经 网 络 。 基 于 现 有 的 强大 技术 ， 可 以 完成 很 多 研究 工作 。 后 面 会 继续 将 sigmoid 神经 
元 作为 首选 ,因为 它 很 强大 ,也 会 给 出 关于 神经 网 络 核心 思想 的 具体 示例 。 但 请 记 住 ， 这 些 想 法 
也 适用 于 其 他 类 型 的 神经 元 ， 有 时 的 确 能 提升 性 能 。 























3.6.3 ”有 关 神 经 网 络 的 故事 


提问 : 您 怎么 看 那些 全 部 由 实验 结果 ( 而 非 数学 论证 ) 支撑 的 对 机 器 学 习 技 术 的 应 
用 和 研究 呢 ? 在 哪些 场景 中 这 些 技术 无 效 呢 ? 
回答 : 坦白 而 言 ， 缺 乏 有 力 的 理论 。 有 时 我 们 认为 某 些 技术 在 数学 上 应 该 是 可 行 
的 ， 但 最 终 发 现 直觉 是 错误 的 。 这 个 问题 其 实 是 : 某 个 方法 对 特定 问题 效果 如 何 ， 以 及 
它 的 适用 范围 有 多 大 。 
一 一 著名 神经 网 络 研究 专家 Yann LeCun 答 问 
在 参加 有 关 量 子 力学 基础 的 会 议 时 , 我 发 现 了 一 种 有 趣 的 口头 表达 习惯 : 在 报告 结束 时 ， 听 


众 的 问题 通常 是 以 “我 很 赞同 你 的 观点 , 但 是 ……” 开 始 的 。 量 子 力学 基础 不 是 我 的 专长 , 我 之 
所 以 会 注意 到 这 种 质疑 方式 , 是 因为 在 其 他 科学 会 议 上 听众 很 少 对 演讲 者 的 观点 表达 同情 。 当 时 















































GD Kevin Jarrett、Koray Kavukcuoglu、Marc’Aurelio Ranzato 等 人 于 2009 年 发 表 的 论文 What is the Best Multi-Stage 
Architecture for Object Recognition?, Xavier Glorot、Antoine Bordes 、Yoshua Bengio 于 2011 年 发 表 的 论文 Deep 
Sparse Rectifier Neural Networks， 以 及 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 于 2012 年 发 表 的 论文 
JmageNet Classification with Deep Convolutional Neural Networks 论述 了 关于 如 何 设置 输出 层 、 代 价 函 数 、 用 修正 线 
性 单元 正则 化 神经 网 络 的 重要 细节 , 而 本 书 未 涉及 这 些 。 这些 论文 也 详细 讨论 了 使 用 修正 线性 单元 的 优点 和 缺点 。 
Vinod Nair 和 Geoffrey Hinton 于 2010 年 发 表 的 论文 Rectified Linear Units Improve Restricted Boltzmann Machines 演 
示 了 以 不 同 于 神经 网 络 的 方法 使 用 修正 线性 单元 的 好 处 。 
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我 认为 这 种 质疑 方式 存在 是 因为 该 领域 很 少 有 重大 进展 , 长 期 停 在 原 地 。 后 来 ,我 意识 到 这 种 想 
法 有 些 尖 刻 ,演进 者 正 试图 解决 一 些 最 难 的 问题 ， 进 展 当 然 会 非常 缓慢 。 即 使 不 一 定 会 带 来 新 进 
展 , 但 是 了 解 人 们 目前 的 思考 方向 也 很 有 价值 。 








你 可 能 也 注意 到 了 类 似 于 “我 很 赞同 你 的 观点 , 但 是 ……” 这 样 的 表达 。 为 了 解释 我 们 已 经 
见 到 的 情况 ,我 通常 会 使 用 “试想 ，…… ”或 者 “粗略 地 讲 ，……… ”这 类 表述 ， 然 后 通过 故事 解 
释 某 个 现象 或 问题 。 这 些 故 事 是 可 信 的 ， 但 实验 性 的 证 据 常常 不 够 充分 。 如 果 你 通读 研究 文献 ， 
会 发 现 神 经 网 络 研究 中 有 很 多 类 似 的 表述 , 基本 上 没有 充足 的 证 据 支 撑 。 所 以 应 该 怎样 看 待 这 样 
的 故事 呢 ? 























在 科学 的 很 多 分 支 中 , 尤其 是 那些 研究 简单 现象 的 领域 , 很 容易 得 到 一 些 关 于 一 般 假 说 的 可 
靠 证 据 ,但 是 神经 网 络 中 存在 大 量 参数 和 超 参数 ,其 间 的 交互 也 极其 复杂 。 在 这 样 的 复杂 系统 中 ， 
得 出 可 靠 的 一 般 性 论断 尤其 困难 。 完 全 理解 神经 网 络 实际 上 和 量子 力学 基础 类 似 , 都 是 对 人 类 思 
维 极 限 的 挑战 。 实际 上 , 我 们 通常 是 和 一 些 一 般 理 论 的 具体 实例 打交道 一 一 找到 正面 或 者 反面 的 
证 据 。 因 此 ， 当 有 新 证 据 出 现时 ， 需 要 对 这 些 理论 进行 调整 甚至 抛弃 。 























对 于 这 种 情况 , 一 种 观点 认为 任何 关于 神经 网 络 的 启发 式 论点 都 会 带 来 挑战 , 例如 考虑 前 文 
引用 的 解释 Dropout 工作 原理 的 语句 ":“ 因 为 神经 元 不 能 依赖 其 他 特定 的 神经 元 ， 所 以 该 技术 其 
实 减 少 了 神经 元 间 复 杂 的 互 适应 ， 而 强制 学 习 那 些 在 神经 元 的 不 同 随机 子 集中 更 稳固 的 特征 。 
这 是 一 个 有 价值 又 带 有 争议 的 假说 ,可 以 据 此 观点 发 展 出 一 系列 研究 项 目 ， 辨 明 其 中 真 假 ， 以 及 
哪个 需要 变化 和 改进 。 实 际 上 ， 一 些 研究 人 员 正在 研究 Dropout 及 其 变 体 ， 分 析 其 工作 机 制 和 极 
限 所 在 。 前 面 讨 论 过 的 启发 式 方法 也 有 类 似 的 情况 ,它们 不 仅 是 潜在 的 解释 ,也 是 进一步 研究 和 
理解 的 挑战 。 




















































































































当然 ， 独 自 研 究 所 有 这 些 局 发 式 方法 在 时 间 上 是 不 允许 的 ， 可 能 需要 研究 人 员 花 费 数 十 年 
(其 至 更 久 ) 发 展 出 一 个 真正 可 靠 、 基 于 实证 的 关于 神经 网 络 工 作 原 理 的 理论 。 那 么 这 是 否 意味 
着 因 其 不 严 间 且 无 法 充分 证 明 而 应 该 放弃 启发 式 方法 呢 ?” 当 然 不 是 ， 实 际 上 ， 这 样 的 启发 式 方法 
有 助 于 激发 和 指导 我 们 思考 。 这 有 点 像 大 航海 时 代 : 早期 的 探险 家 基于 带 有 重大 错误 的 认识 进行 
探索 (但 有 了 新 发 现 )。 后 来 随 着 地 理 知 识 的 进步 ， 这 些 错误 被 纠正 了 。 当 对 某 件 事理 解 不 深 时 ， 
就 像 探 险 家 对 地 理 的 理解 以 及 如 今 我 们 对 神经 网 络 的 理解 ， 比 起 严格 验证 每 一 步 思 考 , 大 胆 探索 
显得 更 重要 。 应 该 将 这 些 故 事 看 作 关 于 如 何 思考 神经 网 络 的 指导 ， 明 晰 其 限制 ， 验 证 证 据 的 可 靠 
性 ,换言之 ,好 的 故事 能 不 断 激励 和 启发 我 们 去 勇敢 探索 ,然后 通过 严谨 深入 的 调查 来 探求 真理 。 



























































QD Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton. ImageNet Classification with Deep Convolutional Neural Networks, 2012. 
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对 于 神经 网 络 ， 一 个 显著 的 事实 就 是 它 可 以 计算 任何 函数 。 假 设 有 某 个 复杂 而 奇特 的 函数 
f(x) ， 如 图 4-1 所 示 。 
f0) 











图 4-1 


不 管 该 函数 如 何 ， 总 有 神经 网 络 能 够 对 任何 可 能 的 输入 x ， 输 出 值 f(x)〔( 或 者 某 个 足够 准 
确 的 近似 )， 如 图 4-2 所 示 。 


多 站 "| / J» f(x) 
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即使 
函数 ， 该 


数 有 很 多 输入 和 输出 ，f = f(x4,…,%,) ， 结 果 也 是 成 立 的 。 例 如 该 神经 网 络 计算 一 个 


a 
哨 数 有 m=3 个 输入 和 n=2 个 输出 ， 如 图 4-3 所 示 。 





图 4-3 





结果 表明 神经 网 络 具有 一 种 普遍 性 ， 无 论 我 们 想 计 算 什么 函数 ， 都 能 用 神经 网 络 实现 。 


甚至 将 神经 网 络 的 输入 层 和 输出 层 之 间 限 制 在 只 有 一 个 中 间 层 的 情况 下 ， 该 普遍 性 定理 仍 成 
立 ， 所 以 简单 的 神经 网 络 架构 非常 强大 。 


普遍 性 定理 对 于 神经 网 络 的 使 用 者 来 说 是 众所周知 的 事情 , 但 其 合理 性 没有 普遍 接受 的 解释 。 | 
现 有 的 大 多 数 解释 往往 具有 很 强 的 技术 性 , 例如 有 一 篇 论文 "运用 军 - 巴 拿 赫 定 理 、 里 斯 表示 定理 
和 一 些 依 里 叶 分 析 证 明了 这 个 结果 。 对 于 数学 家 而 言 , 这 个 证 明 应 该 不 难 理解 ,但 对 于 大 多 数 人 
还 是 很 困难 的 。 这 不 能 不 算是 一 种 遗憾 ， 因 为 这 个 普遍 性 背后 的 原理 其 实 是 简单 而 美妙 的 。 
本 章 给 出 该 普遍 性 定理 的 简单 解释 ， 其 大 部 分 是 可 视 化 的 。 我 们 会 一 步 步 深 入 背后 的 思想 ， 
了 解 神经 网 络 可 以 计算 任何 函数 的 原因 及 该 论断 的 局 限 性 , 还 有 这 些 结论 是 如 何 与 深度 神经 网 络 
相关 联 的 。 




























































































本 章 相 对 独立 ,理解 本 章 内 容 不 需要 阅读 前 面 的 音节。 对 神经 网 络 有 基本 了 解 便 能 理解 这 些 
解释 。 本 章 偶尔 会 提 到 前 面 的 内 容 ， 便 于 你 构建 完整 的 知识 体系 。 

















@ Approximation by superpositions of a sigmoidal function， 作 者 是 George Cybenko。 其 结论 在 当时 非常 流行 ， 有 几 个 
研究 小 组 也 给 出 了 相似 的 证 明 。Cybenko 的 论文 包含 了 很 多 关于 那些 成 果 的 有 价值 的 讨论 。 另 一 篇 重要 的 早期 论 
文 是 Multilayer feedforward networks are universal approximators， 作 者 是 Kurt Hornik、Maxwell Stinchcombe 和 
Halbert White。 这 篇 论文 采用 斯 通 - 魏 尔 斯 特 拉 斯 定理 取得 了 相似 的 结果 。 
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普遍 性 定理 在 计算 机 科学 领域 中 特别 常见 ， 容 易 让 人 忽视 其 特别 之 处 。 值 得 一 提 的 是 ， 计 
算 任意 函数 的 能 力 真是 太 棒 了 ! 我 们 几乎 可 以 将 生活 中 的 任何 过 程 看 作 函 数 的 计算 ,例如 基于 
一 段 音乐 识别 曲目 ,其 实 也 能 将 其 视 为 计算 一 个 函数 , 或 者 将 中 文 翻译 成 英文 "， 又 或 者 根据 一 
个 mp4 视频 文件 生成 对 电影 情节 的 描述 并 讨论 表演 水 平 。 普 遍 性 指 神经 网 络 可 以 做 各 种 事 ' 
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当然 , 知道 神经 网 络 可 以 将 中 文 翻译 成 英文 , 并 不 等 同 于 我 们 可 以 构造 其 至 掌握 这 样 的 神经 
网 络 。 布尔 电路 上 的 传统 普遍 性 定理 也 存在 类 似 的 局 限 性 , 但 如 前 所 述 ,神经 网 络 通 过 强大 的 算 
法 来 学 习 函 数 ,学 习 算 法 和 普遍 性 的 结合 是 一 种 有 趣 的 混合 。 前 面 一 直 着 重 探 讨 学 习 算法 ， 本章 
转向 普遍 性 ， 了 解 其 实质 。 


4.1 两 个 预先 声明 


在 解释 为 何 普遍 性 定理 成 立 之 前 ， 首 先 给 出 关于 非 正式 的 表述 “神经 网 络 可 以 计算 任何 函数 ” 
的 两 个 预先 声明 。 
























































第 一 点 , 这 句 话 不 是 说 神经 网 络 可 用 于 准确 计算 任何 函数 ,而 是 说 可 以 获得 不 错 的 近似 。 可 
以 通过 增加 隐藏 神经 元 的 数量 来 提升 近似 的 准确 度 。 例如 前 面 用 一 个 包含 3 个 隐藏 神经 元 的 神经 
网 络 来 计算 f(x) 。 对 于 大 多 数 函 数 ， 使 用 3 个 隐藏 神经 元 只 能 得 到 低 质量 的 近似 。 通 过 增加 隐 
藏 神 经 元 的 数量 〈 比如 5 个 )， 能 够 得 到 明显 更 好 的 近似 ， 如 图 4-4 所 示 。 


















































Q 实际 上 可 以 将 其 看 作 计算 很 多 函数 ， 因 为 一 段 文本 可 以 有 多 种 翻译 。 
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而 且 可 以 继续 增加 隐藏 神经 元 的 数目 。 








为 了 让 这 个 表述 更 准确 ， 假 设 给 定 一 个 函数 f(x) ， 需 要 按照 目标 准确 度 e > 0 进行 计算 。 可 
以 使 用 足够 多 的 隐藏 神经 元 ， 使 得 神经 网 络 的 输出 g(x) 对 所 有 的 x 满足 1g8CO0- Co0|<<c ， 以 实 
现 近似 计算 。 换 言 之 ， 对 于 每 个 可 能 的 输入 ， 近 似 都 限制 在 目标 准确 度 范围 内 。 























第 二 点 ,可 以 按照 上 述 方式 近似 的 函数 其 实 是 连续 函数 。 如 果 函 数 不 是 连续 的 ， 即 会 有 突然 
的 “跳跃 "， 那 么 通常 无 法 使 用 一 个 神经 网 络 进行 近似 。 这 并 不 意外 ， 因 为 神经 网 络 计算 的 是 输 
入 的 连续 函数 。 然 而 ， 即 使 那些 需要 计算 的 函数 是 不 连续 的 ， 连 续 的 近似 一 般 也 足够 好 了 。 这 样 
的 话 ， 就 可 以 用 神经 网 络 来 近似 了 。 实 践 中 ， 这 通常 不 是 一 个 严重 的 限制 。 


















































总 结 一 下 , 关于 普遍 性 定理 ,更 加 准确 的 表述 是 : 包含 隐藏 层 的 神经 网 络 可 按照 任意 给 定 的 
准确 度 来 近似 任何 连续 函数 。 本 章 会 使 用 有 两 个 隐藏 层 的 神经 网 络 来 证 明 该 论断 的 弱化 版 本 。 问 
题 部 分 将 简单 介绍 如 何 通过 微调 使 该 解释 适用 于 只 包含 一 个 隐藏 层 的 神经 网 络 。 


4.2 一 个 输入 和 一 个 输出 的 普遍 性 


为 了 理解 普遍 性 定理 成 立 的 原因 , 首先 需要 了 解 如 何 构造 神经 网 络 , 使 它 能 够 近似 只 有 一 个 
输入 和 一 个 输出 的 函数 ， 如 图 4-5 所 示 。 
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图 4-5 


结果 表明 , 这 其 实 是 普遍 性 问题 的 核心 。 理 解 了 这 个 特例 后 ,很 容易 扩展 到 那些 有 多 个 输入 
和 输出 的 函数 。 








为 了 理解 如 何 构造 一 个 神经 网 络 来 计算 了 , 先 从 只 包含 一 个 隐藏 层 的 神经 网 络 开始 , 它 有 两 
个 隐藏 神经 元 ， 以 及 由 单个 输出 神经 元 形成 的 输出 层 ， 如 图 4-6 所 示 。 
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图 4-6 





为 了 理解 神经 网 络 组 件 的 工作 机 制 ， 下 面 着 重 研究 顶部 的 隐藏 神经 元 。 图 4-7 展示 了 顶部 隐 
藏 神经 元 的 权重 w 、 偏 置 » 和 输出 曲线 的 关系 。 思 考 如 何 通 过 顶部 隐藏 神经 元 的 变化 计算 函数 。 
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图 4-7 


如 前 所 述 ， 隐 藏 神经 元 计算 的 是 ol(wx+5) ， 其 中 o(z)=1/(+e“) 是 sigmoid 函数 。 前 面 频 
繁 使 用 这 个 代数 形式 , 这 里 为 了 证 明 普遍 性 会 完全 忽略 其 代数 性 质 , 而 会 在 图 像 中 调整 并 观察 形 
状 来 获得 更 多 认识 。 除 了 感性 认 知 ， 它 还 能 证 明 除 了 sigmoid 函数 外 ， 普 遍 性 也 适用 于 其 他 激活 
函数 "。 




















一 开始 增 大 偏 置 b 的 值 。 当 偏 置 增加 时 ， 图 形 向 左 移动 ， 但 是 形状 保持 不 变 。 





接着 减 小 偏 置 。 当 偏 置 减 小 时 ， 图 形 向 右 移动 ， 但 形状 仍 没有 变化 。 








Qz 严格 说 来 ， 本 章 采 取 的 可 视 化 方式 证 明 在 传统 上 并 不 被 视 作 一 种 证 明 。 但 我 认为 ， 相 比 于 传统 的 证 明 ， 可 视 化 方 
法 有 助 于 加 深 理解 ， 因 为 理解 是 证 明 背 后 的 真正 目的 。 推 理 中 偶尔 会 有 小 的 缺失 : 可 视 化 参数 看 上 去 合理 , 但 不 
是 很 严 遵 。 如 果 这 让 你 烦恼 ， 可 以 把 它 视 为 一 个 挑战 ， 并 尝试 自己 补足 缺失 的 步 又 ,但 不 要 忘 了 真正 的 目的 是 了 
解 普遍 性 定理 为 何 是 正确 的 。 
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然后 将 权重 减 小 到 大 约 2 或 3。 当 权重 减 小 时 ， 曲 线 向 两 边 拉 宽 了 。 可 以 通过 改变 偏 置 让 曲 
线 保 持 在 框 内 。 

最 后 ， 把 权重 增加 到 超过 100。 这 会 使 得 曲线 变 得 越 来 越 了 汗 ， 最 终 看 上 去 像 阶 跃 函数。 尝试 
调整 偏 置 ， 使 得 阶 跃 位置 靠近 x= 0.3 。 结 果 应 该 如 图 4-8 所 示 。 


























时 和 





w= 
w= 
w= 
w= 








0 
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图 4-8( 见 彩 插 


可 以 给 权重 增加 很 大 的 值 来 简化 分 析 ， 使 得 输出 实际 上 变 成 阶 跃 函 数 。 当 权重 w= 999 时 ， 
顶部 隐藏 神经 元 的 输出 如 图 4-9 所 示 。 





— 





1 人 顶部 隐藏 神经 元 输出 





b=-400 


w=999 


x \ -> 0 > 





图 4-9 


实际 上 ， 阶 路 函数 比 一 般 的 sigmoid 函数 更 容易 处 理 ， 原 因 是 在 输出 层 把 所 有 隐藏 神经 元 的 
贡献 值 加 在 一 起 了 。 分 析 一 串 阶 路 函数 的 和 很 容易 ， 而 思考 把 一 些 S 形 曲线 加 起 来 会 更 难 ， 所 以 
假设 隐藏 神经 元 输出 阶 跃 函数 能 简化 工作 。 具 体 而 言 , 把 权重 w 固定 为 一 个 大 的 值 , 然后 修改 偏 
置 来 设置 阶 路 函数 的 位 置 。 当 然 ,把 输出 作为 阶 路 函数 来 处 理 只 是 一 个 近似 , 却 是 非常 好 的 近似 。 
这 里 把 它 看 作 精 确 的 ， 稍 后 再 讨论 偏离 这 种 近似 的 影响 。 
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x 取 何 值 时 会 发 生 阶 跃 呢 ? 换言之 ， 阶 牙 的 位 置 如 何 取决 于 权重 和 偏 置 呢 ? 











为 了 回答 这 个 问题 , 试 着 修改 权重 和 偏 置 。 你 能 否 算出 阶 跃 的 位 置 如 何 取决 于 w 和 5b?” 尝试 
一 下 就 会 发 现 ， 阶 路 的 位 置 和 4b 成 正比 ， 和 w 成 反比 。 
































实际 上 ， 阶 路 发 生 在 s= -b/w 的 位 置 ， 通 过 修改 权重 和 偏 置 可 以 实现 ， 如 图 4-10 所 示 。 


| 小 “顶部 隐藏 神经 元 输出 





—b/w = 0.40 


图 4-10 


这 将 用 仅仅 一 个 参数 s 来 极 大 地 简化 描述 隐藏 神经 元 的 方式 , 这 就 是 阶 路 位 置 s= -b/w 。 试 
着 修改 图 4-11 中 的 s， 熟 悉 新 的 参数 化 方式 。 





1 项 部 隐藏 神 经 元 输出 


S=0.40 


4-11 


如 前 所 示 ， 我 们 隐 式 地 将 输入 上 的 权重 w 设 置 为 较 大 的 值 ， 大 到 阶 跃 函数 能 够 很 好 地 近似 。 
通过 选择 偏 置 b= -ws ， 很 容易 将 以 这 种 方式 参数 化 的 神经 元 转换 回 常 见 模 式 。 

前 面 着 重 研究 了 顶部 隐藏 神经 元 输出 ,下 面 看 看 整个 神经 网 络 的 行为 。 假设 隐藏 神经 元 在 计 
算 以 阶 跃 点 s，( 顶部 神经 元 ) 和 s,( 底部 神经 元 ) 参数 化 的 阶 跃 函数 ,它们 的 输出 权重 分 别 为 w 
和 w,， 神 经 网 络 如 图 4-12 所 示 。 
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站 ”隐藏 层 带 权 输出 











图 4-12 























4-12 中 右边 绘制 的 是 隐藏 层 的 带 权 输 出 wa +wa, ， 其 中 a 和 a 分 别 是 顶部 神经 元 和 底 


部 神经 元 的 输出 *。 这 些 输出 用 a 表示 ， 通 常 把 它们 称 为 神经 元 的 激活 值 。 


尝试 增 大 和 减 小 顶部 隐藏 神经 元 的 阶 跃 点 s,, 看 看 这 会 如 何 改变 隐藏 层 的 带 权 输出 , 尤其 注 
意 当 % 经 过 s, 时 的 情况 。 可 以 看 到 这 时 图 形 发 生 了 变化 , 因为 从 顶部 隐藏 神经 元 先 被 激活 变 成 了 











底部 隐藏 神经 元 先 被 激活 。 


类 似 地 ,尝试 操作 底部 隐藏 神经 元 的 阶 跃 点 s, ,了 解 这 会 如 何 改变 隐藏 神经 元 混合 后 的 输出 。 
尝试 增 大 和 减 小 每 一 个 输出 权重 。 注 意 , 这 会 如 何 调整 各 自 隐 藏 神经 元 的 贡献 值 ” 当 一 个 权 





重 为 0 时 会 发 生 什么 ? 


最 后 ， 尝 试 设置 wi 为 0.8、w 为 -0.8， 会 得 到 一 个 隆起 水 数 ( bump function )， 
台 ， 到 点 ”> 结束 ， 高 为 0.8。 带 权 输 出 可 能 如 图 4-13 所 示 。 











站。 隐藏 层 带 权 输 出 
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图 4-13 























中 顺便 提 一 下 ， 整 个 神经 网 络 的 输出 是 rCwia + wa + b)， 其 中 45 是 隐藏 层 的 偏 置 。 显 然 ， 这 不 同 拉 

















-na 《国生 





隐藏 层 带 权 后 














的 输出 ， 即 这 里 的 曲线 。 下 面 着 重 研究 隐藏 层 的 带 权 输出 ， 稍 后 考虑 如 何 把 它 与 整个 神经 网 络 的 输出 关联 。 
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当然 ， 可 以 随意 调整 隆起 高 度 。 可 用 参数 h 来 表示 高 度 。 为 了 避免 混乱 ， 移 除 “s,=” 和 


“w=” 等 标记 ， 如 图 4-14 所 示 。 


试 着 增 大 或 减 小 h 的 值 ， 看 看 隆起 高 度 如何 改 变 ; 试 着 
试 着 改变 阶 跃 点 ， 看 看 隆起 的 形状 如 何 改变 。 
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顺便 提 一 下 , 前 面 使 用 神经 元 的 方式 不 只 是 站 在 图 形 的 角 


else 的 一 种 声明 ， 例 如 : 


if input >= step point: 
add 1 to the weighted output 
else: 


add 0 to the weighted output 





高 度 值 改 为 负数 ， 看 看 结果 如 何 ; 























度 , 还 是 传统 的 编程 形式 if-then- 


大 部 分 论述 将 基于 图 像 ， 但 在 接 下 来 的 内 容 中 ， 有 时 改变 视角 和 考虑 if-then-else 的 形式 


会 有 帮助 。 





可 以 用 “生成 隆起 ”的 技巧 来 得 到 两 个 隆起 一 一 把 两 对 隐藏 神经 元 填充 进 同一 个 神经 网 络 ， 


如 图 4-15 所 示 。 
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这 里 忽略 了 权重 ,只 是 简单 地 在 每 对 隐藏 神经 元 上 写 了 hh 的 值 。 尝 试 增 大 和 减 小 两 个 值 ， 
观察 它 如 何 改变 图 形 。 可 以 通过 修改 阶 跃 点 来 移动 隆起 。 

















更 普遍 地 说 ， 可 以 利用 该 思想 生成 任何 高 度 的 峰值 ， 具 体 而 言 ， 可 以 把 间隔 [0,1] 分 成 许多 
子 区 间 , 用 V 表示 , 并 利用 N 对 隐藏 神经 元 来 设置 任意 高 度 的 峰值 。 例 如 NW = 5 时, 会 有 很 多 神 
经 元 ， 所 以 图 4-16 看 起 来 有 点 挤 。 该 图 有 些 复杂 ， 其 实 可 以 通过 进一步 抽象 来 隐藏 其 复杂 性 ， 
但 这 里 这 么 做 是 值得 的 ， 可 以 直观 感受 神经 网 络 如 何 工 作 。 


和 ,个 。 隐藏 层 带 权 输 出 















































< hn=1.1 x 


h=1.4 








图 4-16 

















图 4-16 中 有 5 对 隐藏 神经 元 。 每 对 神经 元 对 应 的 连接 点 是 0, /5 ， 然 后 是 1/5, 2/5,… ， 最 后 
到 4/$, 5/5。 这 些 值 是 固定 的 ， 它 们 令 图 形 上 出 现 5 个 均匀 分 布 的 隆起 。 





每 对 神经 元 都 有 一 个 值 h 与 之 联系 。 记 住 ， 神 经 元 输出 的 连接 有 权重 和-h (未 标记 )。 调 
整 h 的 值 ， 观 察 函 数 的 变化 。 通 过 改变 输出 权重 ,实际 上 是 在 设计 这 个 函数 。 


























改变 隆起 函数 的 高 度 ， 相 应 的 h 值 也 会 发 生变 化 。 尽 管 这 里 没有 显示 ,在 对 应 的 输出 权重 上 
其 实 也 有 变化 :+h 和 一 h 。 
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换言之 ,可 以 直接 操作 右边 图 形 里 的 函数 ， 然 后 看 看 左边 h 值 的 反应 。 不 妨 挑战 一 下 。 








回想 一 下 章 首 绘制 的 函数 ， 见 图 4-17。 














f(x) 
> 大 
图 4-17 
我 们 绘制 的 其 实 是 以 下 函数 : 
f(x)=0.2+0.4x* +0.3xsin( 5x)+0.05cos(50x) (113) 




















横 轴 和 纵 轴 的 取 值 范围 都 是 0 到 1。 











显然 ， 该 函数 并 不 简单 。 下 面 探究 如 何 用 神经 网 络 来 计算 它 。 








在 前 面 的 神经 网 络 中 , 我 们 已 经 分 析 了 隐藏 神经 元 输出 的 加 权 和 ,wa ， 了 解 了 如 何 控制 
这 个 量 。 但 如 前 所 述 ， 这 个 量 不 是 神经 网 络 的 输出 ， 神 经 网 络 输出 的 是 c( ,wii +5) ， 其 中 
是 输出 神经 元 的 偏 置 。 有 什么 方法 可 以 控制 神经 网 络 的 实际 输出 吗 ? 


























解决 方案 是 设计 一 个 神经 网 络 ， 其 隐 叱 层 有 一 个 带 权 输出 on。/f(x) ， 其 中 o 是 o 函数 的 
反 函 数 ， 即 我 们 希望 隐藏 层 的 带 权 输出 如 图 4-18 所 示 。 


如 果 这 样 做 ， 那么 整体 而 言 神经 网 络 的 输出 会 是 f(x) 的 一 个 很 好 的 近似 ”。 





Qz 注意， 我 已 将 输出 神经 元 的 偏 置 设 为 0 了 。 
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你 的 挑战 是 设计 一 个 神经 网 络 来 近似 前 面 的 目标 函数 。 为 了 尽 可 能 多 地 学 习 , 建议 分 两 次 解 
决 这 个 问题 。 第 一 次 ,调整 不 同 隆起 函数 的 高 度 , 会 发 现 很 容易 找到 一 个 很 好 的 、 匹 配 的 目标 函 


数 。 实现 水 平 由 目标 函数 和 神经 网 络 实际 计算 函数 的 平均 偏 置 来 衡量 。 这 里 的 挑战 是 尽 可 能 把 平 














均 偏 置 降低 至 0.40 或 以 下 。 
完成 后 “ 重 置 ”神经 网 络 ， 随 机 重新 初始 化 隆起 形状 。 第 二 次 


hn 值 ， 再 次 将 平均 偏 置 降低 到 0.40 或 以 下 ， 如 图 4-19 所 示 ? 。 
个 隐藏 去 带 权 输出 


解决 问题 时 ， 尝 试 修改 左边 的 


























> (六 平均 偏 置 : 0.38 
成 功 





> //h=-1.0 


图 4-19 














@ 也 可 以 尝试 不 同 的 权重 配置 。 一 一 译 者 注 
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这 样 就 弄 明白 了 如 何 使 用 神经 网 络 的 必要 元 素来 近似 计算 函数 f(x) 。 这 只 是 粗略 的 近似 ， 
还 有 提升 的 空间 ， 例 如 可 以 增加 隐藏 神经 元 对 的 数量 或 分 配 更 多 的 隆起 形状 。 








可 见 很 容易 将 已 找到 的 所 有 数据 转换 回 神经 网 络 使 用 的 标准 参数 设 定 。 下 面 总 结 一 下 工作 原理 。 





口 第 一 层 的 权重 都 有 一 些 大 的 、 恒 定 的 值 ， 比 如 w=1000 。 

口 隐藏 神经 元 上 的 偏 置 只 是 2=-ws ,例如 对 于 第 二 个 隐藏 神经 元 ，s =0.2 变 成 了 
b=—1000x0.2=-200 。 

口 最 后 一 层 的 权重 由 值 决定 , 例如 前 面 第 一 个 hh 选择 了 h= -0.1 ， 意 味 着 顶部 两 个 隐藏 神 
经 元 的 相应 输出 权重 是 -0.1 和 0.1， 以 此 类 推 来 确定 整 层 的 输出 权重 。 

口 最 后 ， 输 出 神经 元 的 偏 置 为 0。 









































成 果 丰 硕 ! 我 们 得 到 了 对 一 个 能 很 好 地 计算 原始 目标 函数 的 神经 网 络 的 完整 描述 , 并 且 理 解 
了 如 何 通过 增加 隐藏 神经 元 的 数目 来 提升 近似 的 质量 。 


此 外 , 原始 目标 函数 f(x) = 0.2+0.4x? +0.3xsin(15x)+0.05cos(50x) 并 无 特别 之 处 。 可 以 用 该 
程序 计算 任何 定义 域 为 [0, 1] 、 值 域 为 [0, 1] 的 连续 函数 。 本 质 上 , 我 们 使 用 单 层 神经 网 络 来 为 函 
数 构建 查找 表 。 该 思想 通用 于 证 明 普 遍 性 。 


4.3 ”多 个 输入 变量 


下 面 把 结论 扩展 到 有 多 个 输入 变量 的 情况 。 听 上 去 比较 复杂 , 但 两 个 输入 的 情况 足以 解释 一 
切 ， 因 此 下 面 研究 有 两 个 输入 的 情况 。 












































首先 考虑 一 个 神经 元 有 两 个 输入 的 情况 ， 如 图 4-20 所 示 。 


图 4-20 





图 中 输入 x 和 y 分 别 对 应 权重 w 和 w, ,以 及 神经 元 上 的 偏 置 5 。 把 权重 ww 设 为 0, 然后 琢磨 
第 一 个 权重 WwW 和 偏 置 ， 看 看 它们 如 何 影 响 神经 元 的 输出 ， 如 图 4-21 所 示 。 
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图 4-21 


如 图 4-21 所 示 ， 在 w=0 时 ,输入 y 对 神经 元 的 输出 没有 影响 ， 就 像 x 是 唯一 的 输入 。 


鉴于 此 ,思考 一 下 将 权重 w 增加 到 100, w 保 持 不 变 会 发 生 什 么 ”如 果 没 有 立即 想 出 答案 ， 
不 妨 仔 细 琢 磨 ， 然 后 尝试 一 下 ， 验 证 是 否 正 确 。 结 果 如 图 4-22 所 示 。 
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图 4-22 
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如 前 所 述 , 随 着 输入 权重 变 大 , 输出 接近 阶 跃 函数。 不 同 的 是 , 现在 的 阶 牙 函数 有 3 个 维度 。 
如 前 所 示 ， 可 以 通过 改变 偏 置 的 位 置 来 移动 阶 跃 点 的 位 置 。 阶 路 点 的 实际 位 置 是 s, =-b/w。 


用 阶 区 点 位 置 作为 参数 重 绘 前 面 的 阶 路 函数 ， 如 图 4-23 所 示 。 








输出 


图 4-23 





这 里 假设 x 输入 上 的 权重 取 很 大 的 值 ， 例 如 w =1000 ， 而 权重 w =0 。 神 经 元 上 的 数字 是 
阶 跃 点 ,数字 上 面 的 x 表示 阶 跃 在 x 轴 方 向 。 当 然 , 也 可 以 让 > 输入 上 的 权重 取 非 常 大 的 值 ( 比 
如 w, =1000 ), x 上 的 权重 等 于 0, 即 w =0 , 来 得 到 一 个 轴 方 向 的 阶 跃 函数 , 如 图 4-24 所 示 。 








图 4-24 














神经 元 上 的 数字 还 是 阶 跃 点 ， 在 这 种 情况 下 ,数字 上 的 y 表 示 阶 路 在 y 轴 方向 。 本 来 可 以 明 
确 地 把 权重 标记 在 x 和 y 输 入 上 ， 不 这 么 做 是 因为 这 会 让 图 示 显 得 杂乱 ， 但 是 记 住 ， 小 y 标 记 示 
意 y 权 重 是 个 大 值 ，x 权重 为 0。 























可 以 用 刚刚 构建 的 阶 跃 函数 来 计算 三 维 的 隆起 函数 。 为 此 ， 要 使 用 两 个 神经 元 ， 每 个 负责 计 
算 x 轴 方向 的 一 个 阶 跃 函数 ， 然 后 用 相应 的 权重 h 和 --h 将 这 两 个 阶 跃 函 数 混 合 ， 其 中 h 是 期 望 
的 隆起 高 度 ， 如 图 4-25 所 示 。 








隐藏 层 带 权 输出 








图 。4-25 

尝试 改变 高 度 有 的 值 ,观察 它 如 何 与 神经 网 络 中 的 权重 关联 ， 以 及 如 何 改 变 右 边 隆起 函数 的 
高 度 。 

另外 , 尝试 改变 与 顶部 隐藏 神经 元 相关 的 阶 跃 点 0.30， 观察 它 如 何 改变 隆起 形状 。 当 移动 它 
超过 和 底部 隐藏 神经 元 相关 的 阶 跃 点 0.70 时 会 发 生 什 么 ? 





1 


前 面 讲 了 如 何 生成 一 个 x 轴 方向 的 隆起 函数 ,当然 ,生成 一 个 7 轴 方 向 的 隆起 函数 也 很 容易 ， 
使 用 y 轴 方向 的 两 个 阶 跃 函数 即 可 实现 。 回 想 一 下 ， 做 法 是 让 y 输 入 的 权重 变 大 , x 输入 的 权重 
为 0。 结果 如 图 4-26 所 示 。 
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图 4-26 





看 上 去 和 前 面 的 神经 网 络 一 模 一 样 ， 唯 一 明显 改变 的 是 隐藏 神经 元 上 现在 标记 了 一 个 小 y， 
表示 生成 的 是 y 轴 方向 的 阶 跃 函数， 不 是 x 轴 方 向 的 ， 并且 y 上 输入 的 权重 变 得 非常 大 ,x 上 的 
输入 为 0， 而 不 是 相反 。 如 前 所 示 ， 这 里 不 明确 标示 ， 以 免 图 像 显得 杂乱 。 








下 面 考虑 一 下 著 加 两 个 隆起 函数 时 会 发 生 什么 ,一 个 沿 x 轴 方向 ， 男 一 个 沿 y 轴 方向 ， 高度 
都 为 hn， 如 图 4-27 所 示 。 
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h=0.30 隐藏 层 带 权 输 出 





图 4-27 





为 了 简化 图 形 ， 省 略 了 权重 为 0 的 连接 。 隐 藏 神经 元 上 标 有 x 和 y， 表 示 在 哪个 方向 上 计算 
隆起 函数 。 后 面 会 略 去 这 些 标记 ， 因 为 输入 变量 暗含 了 这 些 信息 。 











试 着 改变 参数 hn， 这 会 引起 输出 权重 以 及 x 和 y 上 隆起 函数 的 高 度 发 生变 化 。 
构建 的 函数 形似 塔 ， 如 图 4-28 所 示 。 





图 4-28 

















如 果 能 构建 这 样 的 塔 形 函数 ， 就 能 通过 在 不 同位 置 芭 加 不 同 高 度 的 “ 塔 ” 来 近似 任意 函数 ， 
如 图 4-29 所 示 。 








图 4-29 








当然 ， 前 面 没 有 介绍 如 何 构建 塔 形 函数 。 已 经 构建 的 函数 像 一 个 中 心 塔 ， 高 度 为 24 ， 周 围 
“高 原 ”， 高 度 为 h。 





[ou 
a 


下 面 构建 塔 形 函 数 。 前 面 提 到 神经 元 能 用 于 实现 if-then-else 声明 : 


if input >= threshold: 
output 1 

else: 
output 0 


这 是 一 个 只 有 单个 输入 的 神经 元 ， 我 们 想 把 类 似 的 想法 应 用 于 隐藏 神经 元 的 组 合 输出 : 


if combined output from hidden neurons >= threshold: 
output 1 

else: 
output 0 








可 以 选择 阔 值 ， 比 如 34/2 ， 这 是 “高 原 ” 高 度 和 “中 心 塔 ” 高 度 的 中 间 值 。 也 可 以 把 “高 
原 ” 高 度 下 降 到 0， 仅 保留 “中 心 塔 "。 











你 知道 怎么 做 吗 ? 尝试 用 下 面 的 神经 网 络 进行 试验 。 请 注意 , 绘制 的 是 整个 神经 网 络 的 输出 ， 
而 不 仅仅 是 隐藏 层 的 带 权 输出 。 这 意味 着 隐藏 层 的 带 权 输出 增加 了 一 个 偏 置 项 ,并 应 用 了 sigmoid 
函数 。 你 能 找到 刀 和 2 的 值 来 构建 一 个 塔 形 函 数 吗 ? 这 稍微 有 点 难 ， 有 两 点 提示 : 为 了 让 输出 神 
经 元 显示 正确 的 if-then-else 行为 ， 输 入 的 权重 (所 有 或 -h ) 需要 变 得 很 大 ; 2 的 值 决定 了 
if-then-else 阔 值 的 大 小 ， 如 图 4-30 所 示 。 
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图 。4-30 





在 初始 参数 的 情况 下 , 输出 看 起 来 像 之 前 图 形 的 平坦 版 本 。 为 了 实现 目标 行为 , 需要 增 大 参 
数 h 。 此 外 ， 为 了 得 到 正确 的 闷 值 ， 选 择 了 bx -3h/2。 尝 试 一 下 ， 看 看 它 是 如 何 工作 的 。 
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当 有 =10 时 ， 效 果 如 图 4-31 所 示 。 
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图 4-31 


即使 采用 这 个 相对 适中 的 h 值 ， 也 得 到 了 一 个 不 错 的 塔 形 函数 。 当 然 ， 可 以 通过 进一步 增加 
并 保持 偏 置 b= -3h/2 来 改进 。 


下 面 尝试 将 两 个 这 样 的 神经 网 络 组 合 在 一 起 , 来 计算 两 个 塔 形 函数 。 清 晰 起 见 ， 两 个 神经 网 
络 分 别 位 于 图 4-32 中 左 侧 的 方形 区 域 ， 使 用 前 面 介绍 的 技术 各 自 计 算 一 个 塔 形 函 数 ， 右 侧 的 图 
显示 了 第 2 个 隐藏 层 的 带 权 输出 ， 即 它 是 一 个 加 权 组 合 的 塔 形 函数 。 
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图 4-32 











可 以 看 到 修改 最 终 层 的 权重 能 改变 输出 “ 塔 ” 的 高 度 。 





由 


类 似 地 ， 可 以 计算 任意 多 的 “ 塔 ”， 也 可 以 随意 改变 其 宽度 和 高 度 ， 这 样 第 2 个 隐藏 层 的 带 
权 输 出 能 近似 任意 二 元 函数 ， 如 图 4-33 所 示 。 








个 





图 4-33 








通过 第 2 个 隐藏 层 的 带 权 输出 来 近似 oo。f ， 可 以 确保 神经 网 络 输 出 是 任意 目标 函数 了 的 
近似 。 





变量 超过 两 个 的 函数 会 如 何 呢 ? 


考虑 3 个 变量 ( 2 2 2 ) 的 情况 。 图 4-34 中 的 神经 网 络 可 用 于 计算 四 维 的 塔 形 函数 。 
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其 中 xXx、x,、% 表示 神 经 网 络 的 输入 ，s,、t 等 是 神经 元 的 阶 跃 点 ， 即 第 1 层 中 所 有 权重 是 很 
大 的 , 而 偏 置 设置 为 给 出 阶 跃 点 ss、t、s,、…。 第 2 层 中 的 权重 交替 设置 为 +h、-h， 其 中 hh 是 一 
个 非常 大 的 数 。 输 出 偏 置 为 -5h/2 。 























A A 亏 在 s, 和 之 间 、% 在 s; 和 之 间 , 该 神经 网 络 
输出 1， 其 他 情况 输出 0， 即 这 个 “ 塔 ” 在 输入 空间 的 一 小 块 区 域 输出 1， 在 其 他 区 域 输出 0。 


Bo 可 以 得 到 任意 多 的 “ 塔 ”, 如 此 可 近似 任意 三 元 函数 。 对 于 m 
维 ， 人 
使 得 “高 原 ” 变 平 。 









































前 面 介绍 了 如 何 用 神经 网 络 来 近似 一 个 多 元 实 值 函 数 ， 那 么 对 于 向 量 函 数 f (x,…,x,)eR” 
呢 ? 当 然 ， 可 以 把 这 样 的 函数 视 为 n 个 单独 的 实 值 函数 : 了 Go)…,x)、 (0) 然后 
创建 不 同 的 神经 网 络 来 分 别 近似 站、f* ， 如 此 等 等 , 最 后 把 这 些 神经 网 络 组合 起 来 ,实现 起 来 很 
容易 。 





问 题 
前 面 介 绍 了 如 何 使 用 具有 两 个 隐藏 层 的 神经 网 络 来 近似 任意 一 个 函数 。 你 能 否 证 明 只 有 一 
个 隐藏 层 也 是 可 行 的 ? 提示 一 下 ， 不 妨 探究 只 有 两 个 输入 变量 的 情况 ， 并 证 明 : 
(1) 可 以 得 到 一 个 不 仅仅 在 x 轴 方 向 和 ) 轴 方 向 ， 而 是 在 任意 方向 上 的 阶 跃 函 数 ; 
(2) 可 以 通过 累加 源 自 (1) 的 许多 结构 ,近似 出 一 个 塔 形 函 数 ， 其 形状 是 圆 的 , 而 不 是 方 的 ; 
(3) 使 用 这 些 圆 形 “ 塔 *"， 可 以 近似 任意 一 个 函数 。 


对 于 (3)， 稍 后 所 讲 内 容 可 能 有 所 帮助 。 


4.4 不 止 sigmoid 神经 元 


前 面 证 明了 由 sigmoid 神经 元 构成 的 神经 网 络 可 以 计算 任何 函数 。 回 想 一 下 , 在 一 个 sigmoid 
神经 元 中 , 输入 x, 鸭 ,… ,输出 ao(》， ,wx +5) ,其 中 w 是 权重 ,5b 是 偏 置 ，o 是 sigmoid 函数 ， 
如 图 4-35 所 示 。 
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o(z) 





图 。4-35 
如 果 采 用 一 个 不 同类 型 的 神经 元 , 它 使 用 其 他 激活 函数 ， 比 如 图 4-36 中 的 s(z), 结果 会 怎样 ? 


S(2) 





图 4-36 








具体 而 言 , 假 定神 经 元 有 输入 az,…、 权 重 w,w，… 和 偏 置 ,那么 输出 为 s( 了 7 ,wz +b) 。 


可 以 使 用 该 激活 函数 来 得 到 一 个 阶 路 函数 , 正如 使 用 sigmoid 函数 那 般 。 试 着 增 大 图 4-37 中 的 权 
重 ， 比 如 令 w=100 。 4 








1 个 神经 元 输出 
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正如 使 用 sigmoid 函数 的 情况 ， 这 会 导致 激活 函数 收缩 ， 并 最 终 变 成 阶 路 函数 的 一 个 很 好 的 








近似 。 尝 试 改 变 偏 置 ,你 会 发 现 可 以 
算 任何 函数 。 





上 








随意 设置 阶 路 位置， 所 以 可 以 使 用 前 面 讲 过 的 各 种 技巧 来 计 


























(z) 需要 什么 性 质 才能 起 作用 呢 ? 我 们 需要 假定 s(z) 在 z 一-% 和 z 一 o 时 是 明确 定义 的 ， 























这 两 个 界限 是 在 阶 路 函数 上 取 的 两 个 值 ， 还 需要 假定 这 两 个 界限 不 同 ， 否 则 就 没有 阶 跃 ， 只 是 一 


个 简单 、 平 坦 的 图 形 。 如 果 激 活 函 数 








5s(z) 满足 这 些 性 质 , 那么 基于 这 样 的 激活 函数 的 神经 元 可 通 


问 题 


口 前 面 介 绍 过 其 他 类 型 的 神经 元 : 修正 线性 单元 , 请 解释 为 什么 这 种 神经 元 不 满足 刚刚 列 出 的 
普遍 性 的 条 件 。 请 给 出 一 个 普遍 性 的 证 明 ， 证明 修 正 线性 单元 可 通用 于 计算 。 


口 假设 考虑 线 性 神经 元 ， 即 具有 激活 函数 s(z)=z 的 神经 元 ， 请 解释 为 什么 线性 神经 元 不 满足 


刚刚 列 出 的 普遍 性 的 条 件 ， 并 证 明 这 样 的 神经 元 不 适 于 通用 计算 。 


4.5 修补 阶 跃 函数 





前 面 假定 神经 元 可 以 准确 生成 阶 路 函数 ,这 是 非常 好 的 近似 , 但 也 仅仅 是 近似 。 实 际 上 , 会 
有 一 个 很 窗 的 故障 窗口 ， 如 图 4-38 所 示 ， 图 中 函数 表现 得 和 阶 跃 函数 非常 不 同 。 


1 
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图 4-38 


在 这 些 故 障 窗口 中 ， 前 面 给 出 的 普遍 性 解释 不 成 立 。 








这 不 算是 很 严重 的 失灵 , 通过 为 
些 故 障 窗口 ， 比 如 可 以 让 故障 窗口 比 


输入 到 神经 元 的 权重 设置 一 个 足够 大 的 值 , 可 以 随意 缩小 这 
图 中 显示 的 还 窗 ， 甚 至 窗 到 肉眼 无 法 识别 ,所 以 不 用 过 于 担 
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心 这 个 问题 。 
尽管 如 此 ， 一 些 解决 方法 也 值得 了 解 。 
实际 上 , 这 个 问题 很 容易 解决 。 下 面 看 看 只 有 一 个 输入 和 一 个 输出 的 神经 网 络 如 何 修补 其 计 








算 函 数 。 该 想法 也 适用 于 解决 有 更 多 输入 和 输出 的 问题 
假设 想 用 神经 网 络 计算 函数 了 。 如 前 所 示 , 尝试 设计 神经 网 络 使 得 隐藏 神经 元 的 带 权 输出 为 


ae f(x) ， 如 图 4-39 所 示 。 
oof(x) 





图 4-39 


如 果 使 用 前 面 所 讲 的 技术 来 实现 , 会 使 用 隐藏 神经 元 生成 一 系列 隆起 函数 , 如 图 4-40 所 示 。 








tb 








图 4-40 ( 见 彩 搬 ) 
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重申 一 下 , 图 中 的 故障 窗口 大 小 有 意 放大 了 ， 以 便于 观察 。 显然 , 如果 把 所 有 这 些 隆 起 函数 
加 起 来 ， 最 终 会 得 到 o"'。/(x) 的 合理 近似 ， 除 了 那些 故障 窗口 。 








假设 使 用 一 系列 隐藏 神经 元 来 计算 最 初 的 目标 函数 的 一 半 ， 即 c 。/ 太 012 ， 而 不 是 使 用 刚 
刚 描 述 的 近似 。 当 然 ， 这 看 上 去 就 像 图 4-40 的 缩小 版 本 ， 如 图 4-41 所 示 。 
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图 4-41 ( 见 彩 插 


并 且 假 设 使 用 另外 一 系列 隐藏 神 经 元 来 计算 oo f(x)/2 的 一 个 近似 ,但 是 将 隆起 图 形 偏 移 
一 半 宽 度 ， 如 图 4-42 所 示 。 
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图 4-42 ( 见 彩 插 





这 样 就 得 到 了 o7。/(x)/2 的 两 个 近似 。 如 果 把 这 两 个 近似 图 形 合 起 来 ,就 会 得 到 co 。f(x) 
的 一 个 整体 近似 。 这 个 整体 近似 在 一 些小 窗口 处 仍 有 故障 , 但 比 以 前 要 小 很 多 。 原 因 是 一 个 近似 
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的 故障 窗口 中 的 点 不 会 存在 于 另 一 个 故障 窗口 中 。 





通过 加 入 大 的 数 M, 重奏 地 近似 ac …。jCo71M， 甚 至 可 以 做 得 更 好 。 假 设 故障 窗口 已 经 足够 
守 了 ， 其 中 的 点 只 会 在 一 个 故障 窗口 中 ， 而 且 使 用 一 个 W 足够 大 的 重症 近似 ,结果 会 是 一 个 非 
常 好 的 整体 近似 。 


4.6 小结 
































前 面 对 于 普遍 性 的 解释 当然 不 是 教授 如 何 使 用 神经 网 络 进行 实际 计算 , 更 像 是 与 非 门 或 者 其 
他 类 似 的 普遍 性 证 明 。 出 于 这 个 原因 ,本 章 着 重 于 让 解释 更 清晰 易 懂 ， 而 没有 过 多 挖掘 细 节 。 当 
然 ， 改 进 这 个 解释 是 很 有 趣 也 很 有 益 的 练习 。 








尽管 这 个 论断 不 能 直接 用 于 解释 神经 网 络 , 但 它 还 是 很 重要 的 ， 因为 它 解答 了 “能 否 使 用 神 
经 网 络 计算 任意 函数 ”的 问题 ,这 个 问题 的 答案 总 是 肯定 的 。 所 以 正确 的 问题 并 非 能 否 计算 任意 
函数 ， 而 是 计算 函数 的 好 方法 是 什么 。 

































































本 章 对 于 普遍 性 的 解释 只 用 了 两 个 隐藏 层 来 计算 任意 函数 , 前 面 也 提 到 了 ,只 使 用 单个 隐藏 
层 也 能 取得 相同 的 结果 。 鉴 于 此 ,你 可 能 好 奇 为 什么 要 研究 座 度 神 经 网 络 ， 即 具有 很 多 隐藏 层 的 
神经 网 络 ， 不 能 用 只 有 单个 隐藏 层 的 浅 层 神经 网 络 代替 吗 ? 















































尽管 从 原理 上 讲 是 可 行 的 , 但 使 用 深度 神经 网 络 仍然 有 实际 的 原因 。 如 第 1 章 所 述 , 深度 神 
经 网 络 具 有 层级 结构 ,使 其 尤其 适用 于 学 习 分 级 的 知识 ,可 用 于 解决 现实 问题 。 但 具体 而 言 ， 当 
处 理 图 像 识 别 等 问题 时 ,使 用 一 个 不 仅 能 理解 单独 的 像素 ,还 能 理解 复杂 概念 的 系统 是 有 帮助 的 ， 
其 中 复杂 概念 包括 图 像 的 边缘 信息 、 简 单 的 几何 形状 ， 以 及 所 有 复杂 、 多 目标 的 场景 。 后 面 将 会 
探讨 ,学 习 这 样 的 分 级 知识 时 ,深度 神经 网 络 比 浅 层 神经 网 络 表 现 得 更 好 。 总 结 一 下 ,普遍 性 指 
出 神经 网 络 能 计算 任何 函数 , 而 实践 经 验 表 明 深度 神经 网 络 更 适用 于 学 习 能 够 解决 许多 现实 问题 
的 函数 ”。 
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遍 性 。 本 章 的 可 视 化 方式 得 益 于 很 多 人 的 工作 成 果 ， 包 括 Mike Bostock、Amit Patel 、Bret Victor 和 Steven Wittens。 
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假设 你 是 工程 师 , 接 到 一 项 任务 : 从 头 开始 设计 计算 机 。 某 天 , 你 正在 工作 室 设计 人 逻辑 电路 ， 
例如 构建 与 门 、 或 门 等 。 这 时 ,老板 带 着 坏 消息 进来 了 : 客户 刚刚 提 了 一 个 奇怪 的 设计 需求 一 一 
整个 计算 机 的 电路 深度 限于 两 情 ， 如 图 5-1 所 示 。 


外 部 输入 
(键盘 等 ) 


第 1 层 逻 辑 电路 单元 (AND、OR、NOT， 等 等 ) 
第 2 层 逻 辑 电 路 单元 


| 
外 部 输出 
(屏幕 等 


图 5-1 


















































你 惊 呆 了 ， 跟 老板 说 道 :“ 他 们 疯 了 吧 !” 





老板 说 :“ 我 也 觉得 他 们 疯 了 ,但 是 客户 至 上 ， 只 能 设法 满足 他 们 。” 

实际 上 , 客户 提出 的 需求 并 不 过 分 。 假 设 你 能 使 用 某 种 特殊 的 逻辑 对 任意 多 的 输入 执行 AND 
运算 , 还 能 使 用 多 输入 的 与 非 门 对 多 个 输入 执行 AND 运算 和 NOT 运算 。 由 这 类 特殊 的 逻辑 门 构 
建 出 来 的 双 层 深度 电路 就 可 以 计算 任何 函数 。 








理论 上 成 立 并 不 代表 这 是 一 个 好 的 想法 。 在 实际 解决 电路 设计 问题 或 其 他 大 多 数 算法 问题 时 , 通 
常 要 考虑 如 何 解决 子 问题 ， 然 后 逐步 集成 这 些 子 问题 的 解 。 换 言 之 ， 要 通过 多 层 抽象 来 得 到 最 终 解 。 














假设 设计 一 个 逻辑 电路 来 对 两 个 数 做 乘法 , 我 们 希望 基于 计算 两 个 数 之 和 的 子 电 路 来 构建 该 逻 
辑 电路 。 计 算 两 个 数 之 和 的 子 电 路 是 构建 在 用 于 两 位 相 加 的 子 子 电路 上 的 。 电 路 大 致 如 几 5-2 所 示 。 
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输入 : x 和 有 





第 1 层 处 理 一 些 简单 的 任务 ， 例 如 按 位 求 和 




















整合 成 乘法 


输出 : x.》 
图 5-2 


最 终 的 电路 至 少 包 含 3 层 。 实 际 上 ， 这 个 电路 很 可 能 超过 3 层 ， 因 为 可 以 将 子 任务 分 解 成 更 


小 的 单元 , 但 基本 思想 就 是 这 样 。 








可 见 深度 电路 让 设计 过 程 变 得 更 简单 ， 但 对 于 设计 本 身 帮 助 并 不 大 。 其 实用 数学 可 以 证 明 ， 
对 于 某 些 函 数 计算 , 浅 层 电 路 所 需 的 电路 单元 要 比 深度 电路 多 得 多 。 例如 20 世纪 80 年 代 初 的 一 
些 著名 的 论文 "已 经 提出 ， 通 过 浅 层 电 路 计算 比特 集合 的 奇偶 性 需要 指数 级 的 逻辑 门 。 然 而 ， 如 
果 使 用 更 深 的 电路 ,那么 可 以 使 用 规模 很 小 的 电路 来 计算 奇偶 性 :仅仅 需要 计算 比特 对 的 奇偶 性 ， 
然后 使 用 这 些 结果 来 计算 比特 对 的 对 的 奇偶 性 ， 以 此 类 推 ， 从 而 得 出 整体 的 奇偶 性 。 这 样 一 来 ， 
深度 电路 就 能 在 本 质 上 超过 浅 层 电路 了 。 









































前 文 一 直 将 神经 网 络 看 作 疯 狂 的 客户 ， 几 乎 讲 到 的 所 有 神经 网 络 都 上 只 包含 一 层 隐藏 神经 元 
(另外 还 有 输入 层 和 输出 层 )， 如 图 5-3 所 示 。 





输入 层 














GD 历史 有 点 复杂 ， 可 参考 Johan Histad 于 2012 年 发 表 的 论文 On the correlation of parity and small-depth circuits。 
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这 些 简 单 的 神经 网 络 已 经 非常 有 用 了 , 前 面 使 用 这 样 的 神经 网 络 识别 手写 数字 , 准确 率 高 达 
98%! 而 且 ， 凭 直觉 来 看 ， 拥 有 更 多 隐藏 层 的 神经 网 络 会 更 强大 ， 如 图 5-4 所 示 。 





隐藏 层 1 隐藏 层 2 隐藏 层 3 














这 样 的 神经 网 络 可 以 使 用 中 间 层 构建 出 多 层 抽象 , 正如 在 布尔 电路 中 所 做 的 那样 。 如 果 进 行 
视觉 模式 识别 , 那么 第 1 层 的 神经 元 可 能 学 会 识别 边 ; 第 2 层 的 神经 元 可 以 在 此 基础 上 学 会 识别 
更 加 复杂 的 形状 , 例如 三 角形 或 矩形 ; 第 3 层 将 能 够 识别 更 加 复杂 的 形状 ,以 此 类 推 。 有 了 这 些 
多 层 抽 象 ， 深 度 神经 网 络 似 乎 可 以 学 习 解 决 复杂 的 模式 识别 问题 。 正 如 电路 示例 所 体现 的 那样 ， 
理论 研究 表明 深度 神经 网 络 本 质 上 比 浅 层 神经 网 络 更 强大 ”。 

















如 何 训练 深度 神经 网 络 呢 ? 本 章 尝试 使 用 我 们 熟悉 的 学 习 算 法 一 一 基于 反 向 传播 的 随机 梯 
度 下 降 , 来 训练 深度 神经 网 络 。 但 是 ,这 会 产生 问题 ， 因 为 我 们 的 深度 神经 网 络 并 不 比 浅 层 神经 
网 络 的 性 能 强 多 少 。 











这 似乎 与 前 面 的 讨论 相悖 , 就 此 退缩 吗 ? 当然 不 ,下面 深 入 探究 使 得 深度 神经 网 络 训练 困难 
的 原因 。 仔细 研究 便 会 发 现 ， 在 深度 神经 网 络 中 ,不 同 层 的 学 习 速 度 差异 很 大 。 后面 的 层 正 常 学 
习 时 ,前面 的 层 常常 会 在 训练 中 停滞 不 前 ， 基 本 上 学 不 到 什么 。 这 种 停滞 并 不 是 因为 运气 不 佳 ， 
而 是 有 着 更 根本 的 原因 ， 并 且 这 些 原因 和 基于 梯度 的 学 习 技术 相关 。 

















随 着 更 加 深入 地 理解 这 个 问题 ,也 会 发 现 相反 的 情形 : 前 面 的 层 可 能 学 习 得 很 好 , 但 是 后 面 
的 层 停滞 不 前 。 实际 上 , 我 们 发 现在 深度 神经 网 络 中 使 用 基于 梯度 下 降 的 学 习 算 法 本 身 存 在 不 稳 
定性 。 这 种 不 稳定 性 使 得 前 面 或 后 面 的 层 的 学 习 过 程 阻 滞 。 

















GD 对 某 些 问题 和 神经 网 络 架 构 , Razvan Pascanu、Guido Montufar 和 Yoshua Bengio 在 2014 年 发 表 的 论文 On the number 
of response regions of deep feed forward networks with piece-wise linear activations 给 出 了 证 明 。 更 详细 的 讨论 ， 参 见 
Yoshua Bengio 的 著作 Learning Deep hrchitectures for .47 的 第 二 部 分 。 
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这 的 确 是 个 坏 消息 , 但 真正 理解 了 这 些 难 点 后 ,就 能 掌握 高 效 训练 深度 神经 网 络 的 关键 所 在 。 
而 且 这 些 发 现 也 是 第 6 章 的 预备 知识 ， 届 时 会 介绍 如 何 使 用 深度 学 习 解决 图 像 识别 问题 。 


5.1 梯度 消失 问题 


在 训练 深度 神经 网 络 时 ， 究 竟 哪 里 出 了 问题 ? 




















为 了 回答 这 个 问题 ， 首 先 回顾 一 下 使 用 单一 隐藏 层 的 神经 网 络 示 例 。 这 里 仍 以 MNIST 数字 
分 类 问题 作为 研究 和 试验 的 对 象 。 

















你 也 可 以 使 用 自己 的 计算 机 训练 神经 网 络 。 如 果 想 同步 跟随 这 些 步骤 ， 需 要 用 到 NumPy， 
可 以 使 用 如 下 命令 复制 所 有 代码 : 





git clone https://github.com/mnielsen/neural-networks-and-deep-learning.git 


如 果 你 不 使 用 Git， 可 以 直接 在 随 书 下 载 的 压缩 包 里 找到 数据 和 代码 。 





进入 src 子 目录 ， 在 Python shell 中 加 载 MNIST 数据 : 


>>> import mnist loader 
>>> training data, validation data, test data = \ 
.. mnist loader.1load data wrapper() 


初始 化 神经 网 络 : 


>>> import network2 
>>> net = network2.Network([784, 30,10]) 


该 神经 网 络 有 784 个 输入 神经 元 ， 对 应 输入 图 片 的 28x28 = 784 个 像素 点 。 我 们 设置 隐藏 神 
经 元 为 30 个 ,输出 神经 元 为 10 个 ， 对 应 10 个 MNIST 数 字 (0~9)。 




















训练 30 轮 ， 小 批量 样本 大 小 为 10， 学 习 率 7 = 0.1， 正 则 化 参数 4= 5.0 。 训 练 时 也 会 在 
validation_data 上 监控 分 类 准确 率 : 





>>> net.SGD(training data, 30, 10, 0.1, lmbda=5.0, 
. evaluation data=validation data, monitor evaluation accuracy=True) 





最 终 的 分 类 准确 率 为 96.48% ( 也 可 能 不 同 ， 每 次 运行 实际 上 都 会 有 一 点 点 偏差 )， 这 和 前 面 
的 结果 相似 。 





接 下 来 增加 另外 一 个 隐藏 层 ， 它 也 包含 30 个 神经 元 ， 并 使 用 相同 的 超 参 数 进行 训练 : 
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>>> net = network2.Network([784，30，30，10]) 
>>> net.SGD(training data, 30, 10, 0.1, lmbda=5.0, 
. evaluation data=validation data, monitor evaluation accuracy=True) 


分 类 准确 率 稍 有 提升 ， 到 了 96.90%， 这 说 明 增加 深度 有 效果 ， 那 就 再 增加 一 个 隐藏 层 , 它 同 
样 有 30 个 神经 元 : 
>>> net = network2.Network([784，30，30，30，10]) 


>>> net.SGD(training data, 30, 10, 0.1, lmbda=5.0, 
. evaluation data=validation data, monitor evaluation accuracy=True) 





结果 分 类 准确 率 不 仅 没 有 提升 ， 反 而 下 降 到 了 96.57%， 这 与 最 初 的 浅 层 神经 网 络 相差 无 几 。 
尝试 再 增加 一 层 : 
>>> net = network2.Network([784, 30, 30, 30, 30，10]) 


>>> net.SGD(training data, 30, 10, 0.1, lmbda=5.0, 
. evaluation data=validation data, monitor evaluation accuracy=True) 





分 类 准确 率 继续 下 降 ， 变 为 96.53%。 虽然 这 从 统计 角度 看 算 不 上 显著 下 降 , 但 释放 出 了 不 好 
的 信号 。 





这 种 现象 非常 奇怪 。 根据 常理 判断 , 额外 的 隐藏 层 能 让 神经 网 络 学 到 更 加 复杂 的 分 类 函数 , 然 
后 在 分 类 时 表现 得 更 好 。 按 理 说 不 应 该 变 差 ， 有 了 额外 的 神经 元 层 ， 青 糟糕 也 不 过 是 没有 作用 ”， 
然而 情况 并 非 如 此 。 








这 究竟 是 为 什么 呢 ? 理论 上 , 额外 的 隐藏 层 的 确 能 够 起 作用 , 然而 学 习 算 法 没有 找到 正确 的 
权重 和 偏 置 。 下 面 研究 学 习 算 法 本 身 出 了 什么 问题 ， 以 及 如 何 改 进 。 








为 了 直观 理解 这 个 问题 ， 可 以 将 神经 网 络 的 学 习 过 程 可 视 化 。 图 5-5 展示 了 [784,30,30,10] 
神经 网 络 的 一 部 分 一 一 两 个 隐藏 层 ， 每 层 各 有 30 个 神经 元 。 图 中 每 个 神经 元 都 有 一 个 条 形 统计 
图 ,表示 在 神经 网 络 学 习 时 该 神经 元 改变 的 速度 ,长 条 代表 权重 和 偏 置 变化 迅速 , 反之 则 代表 变 
化 缓慢 。 确 切 地 说 ， 这 些 条 代表 每 个 神经 元 上 的 6C/6b ， 即 代价 关于 神经 元 偏 置 的 变化 速率 。 
第 2 章 讲 过 , 这 个 梯度 量 不 仅 控 制 着 学 习 过 程 中 偏 置 改变 的 速度 ,也 控制 着 输入 到 神经 元 的 权重 
的 改变 速度 。 遗忘 了 这 些 细 节 也 不 要 紧 , 这 里 只 需要 记 住 这 些 条 表示 每 个 神经 元 权重 和 偏 置 在 神 
经 网 络 学 习 时 的 变化 速率 。 






















































































简单 起 见 ， 图 5-5 只 展示 了 每 个 隐藏 层 最 上 方 的 6 个 神经 元 。 之 所 以 没有 展示 输入 神经 元 ， 





GD 稍 后 会 谈 到 如 何 构建 什么 都 不 做 的 隐藏 层 。 
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是 因为 它们 没有 需要 学 习 的 权重 或 偏 置 ; 之 所 以 没有 展示 输出 神经 元 , 是 因为 这 里 进行 的 是 层 与 
层 的 比较 , 而 比较 神经 元 数量 相同 的 两 层 更 为 合理 。 神 经 网 络 初 始 化 后 立即 得 到 了 训练 前 期 的 结 
果 ， 如 图 5-5" 所 示 。 
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该 神经 网 络 是 随机 初始 化 的 , 因此 神经 元 的 学 习 速 度 其 实 相 差 较 大 ， 而 且 隐 藏 层 2 上 的 条 基 
本 上 要 比 隐藏 层 1 上 的 条 长 ,所 以 隐藏 层 2 的 神经 元 学 习 得 更 快 。 这 仅仅 是 一 个 巧合 吗 ?” 这 能 否 
说 明 第 2 个 隐藏 层 的 神经 元 一 般 会 比 第 1 个 隐藏 层 的 神经 元 学 习 得 更 快 呢 ? i 








为 了 验证 猜测 ， 以 一 种 全 局 的 方式 来 比较 学 习 速 度 会 比较 有 效 。 这 里 将 第 1 层 的 第 j 个 神经 
元 的 梯度 表示 为 5, =6C/6b; 。 可 以 将 9 看 作 一 个 向 量 ， 表示 第 1 个 隐藏 层 的 学 习 速 度 ，6* 则 表 
示 第 2 个 隐藏 层 的 学 习 速 度 ; 接着 以 这 些 向 量 的 长 度 度量 隐藏 层 的 学 习 速 度 。 因 此 ，|16 咱 度量 第 
1 个 隐藏 层 的 学 习 速度 ，|| 5” | 则 度量 第 2 个 隐藏 层 的 学 习 速 度 。 
































葵 助 以 上 定义 ， 在 和 图 5-5 相同 的 配置 下 ，||5 川 = 0.07... ， 而 | 6: |= 0.31... ， 这 样 就 解 开 了 








a 该 图 像 以 及 后 面 展示 结果 的 图 像 由 程序 generate_gradient.py 生成 。 
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之 前 的 疑惑 : 第 2 个 隐藏 层 的 神经 元 确实 比 第 1 个 隐藏 层 的 学 得 快 











度 分 另 











如 果 添 加 更 多 隐藏 层 ,会 如 何 呢 ? 如 果 有 3 个 隐藏 层 , 比如 一 个 [784,30,30,30,10] 神 经 网 络 ， 
那么 对 应 的 学 习 速 


后 的 隐藏 层 。 假 设 再 增加 一 








0.070 和 0.285。 还 是 相同 的 模式 : 前 面 的 隐藏 层 比 后 面 的 隐藏 层 学 习 得 更 慢 。 


1 是 0.012、0.060 和 0.283 ， 其 中 前 面 两 个 隐藏 层 的 学 习 速 度 还 是 慢 于 最 
个 包含 30 个 神经 元 的 隐藏 层 , 那么 对 应 的 学 习 速 度 分 别 是 0.003 、0.017、 











这 就 是 训练 开始 时 的 学 习 速度 ， 即 刚刚 初始 化 之 后 的 情况 。 那 么 随 着 训练 的 推进 , 学 习 速 度 


会 发 生 怎样 的 变化 呢 ? 以 只 有 两 个 隐藏 层 的 神经 网 络 为 例 ， 其 学 习 速 度 的 变化 如 图 5-6 所 示 。 


学 习 速 度 : 2 个 隐藏 层 
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训练 轮 数 
图 。5-6( 见 彩 插 
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(尽管 在 平均 噪声 时 结果 很 相似 ), 可 以 使 





,而 显示 了 使 用 小 批量 随机 梯度 下 降 会 让 结果 包含 更 多 噪声 
确定 好 的 参数 对 结果 进行 平滑 处 理 , 以 便 看 
情况 。 


如 








( [784,30,30,30,10] )， 如 图 5-7 所 示 。 


更 复杂 的 神经 网 络 情况 如 何 呢 ? 下 面 进行 类 似 的 试验 ， 但 这 次 让 


图 5-6 所 示 ， 两 个 隐藏 层 一 开始 速度 便 不 同 ， 二 者 的 学 习 速 度 在 
第 1 层 的 学 习 速 度 比 第 2 层 慢 得 多 。 





这 些 结果 产生 自 对 1000 幅 训 练 图 像 应 用 梯度 下 降 算 法 ,训练 了 500 轮 。 这 与 通常 的 训练 方 
式 不 同 ， 没 有 使 用 小 批量 方式 ， 仅 仅 使 用 了 1000 幅 训 练 图 像 ， 而 不 是 全 部 的 50 000 幅 图 像 。 这 
并 不 是 什么 新 尝试 ,也 不 是 敷衍 了 











清楚 真实 


触 底 前 迅速 下 降 。 此 外 ， 

















经 网 络 有 3 个 隐藏 层 
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图 5-7 ( 见 彩 捅 
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同样 ， 前 面 的 隐藏 层 比 后 面 的 隐藏 层 学 习 得 更 慢 。 最 后 一 个 试验 用 到 4 个 隐藏 层 ( [784,30， 
30,30,30,10] )， 看 看 情况 如 何 ， 如 图 5-8 所 示 。 




















i 学 习 速 度 : 4 个 隐藏 层 
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图 5-8 ( 见 彩 捅 
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同样 的 情况 出 现 了 ， 前 面 的 隐藏 层 慢 于 后 面 的 隐藏 层 。 其 中 隐藏 层 1 的 学 习 速 度 跟 隐藏 层 4 
的 差 了 两 个 数量 级 ， 即 前 者 是 后 者 的 1100， 难 怪 之 前 训练 这 些 神经 网 络 时 出 现 了 问题 。 





这 就 有 了 重要 发 现 : 至 少 在 某 些 深 度 神经 网 络 中 , 梯度 在 隐藏 层 反 向 传播 时 倾向 于 变 小 。 这 
意味 着 前 面 的 隐藏 层 中 的 神经 元 比 后 面 的 隐藏 层 中 的 神经 元 学 习 得 更 慢 。 本 方 只 研究 了 一 个 神经 
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网 络 ， 其 实 多 数 神经 网 络 存在 这 个 现象 ， 即 梯度 消失 问题 "。 





为 何 会 出 现 梯 度 消失 问题 呢 ” 如 何 避 免 它 呢 ?在 训练 深度 神经 网 络 时 如 何 处 理 这 个 问题 呢 ? 
实际 上 ， 这 个 问题 并 非 不 可 避免 ， 然 而 蔡 代 方法 并 不 完美 ， 也 会 出 现 问题 : 前 面 的 层 中 的 梯度 会 
变 得 非常 大 ! 这 被 称 为 梯度 爆炸 问题 ， 它 不 比 梯度 消失 问题 容易 处 理 。 一 般 而 言 ,深度 神经 网 络 
中 的 梯度 是 不 稳定 的 ， 在 前 面 的 层 中 可 能 消失 ,可 能 “爆炸 ”。 这 种 不 稳定 性 是 基于 梯度 学 习 的 
深度 神经 网 络 存在 的 根本 问题 ,也 就 是 需要 理解 的 地 方 。 如 果 可 能 ， 应 该 采取 恰当 的 措施 解决 该 
问题 。 



























































关于 梯度 消失 ( 或 不 稳定 )， 一 种 观点 是 确定 这 真 的 成 问题 。 暂 时 换 一 个 话题 ,假设 要 最 小 
化 一 元 函数 f(x) ， 如 果 其 导数 A(x) 很 小 ， 这 难道 不 是 一 个 好 消息 吗 ? 是 否 意 味 着 已 经 接近 极 值 
点 了 ? 同样 ,深度 神经 网 络 中 前 面 隐 藏 层 的 小 梯度 是 否 表示 不 用 费力 调整 权重 和 偏 置 了 ? 






































当然 , 实际 情况 并 非 如 此 。 想 想 随机 初始 化 神经 网 络 中 的 权重 和 偏 置 。 对 于 任意 任务 ,单单 
使 用 随机 初始 化 的 值 难以 获得 良好 结果 。 具 体 而 言 ,考虑 MNIST 问题 中 神经 网 络 第 1 层 的 权重 ， 
随机 初始 化 意味 着 第 1 层 丢 失 了 输入 图 像 的 几乎 所 有 信息 。 即 使 后 面 的 层 能 得 到 充分 的 训练 ,这 
些 层 也 会 因为 没有 充足 的 信息 而 难以 识别 输入 图 像 。 因 此 , 第 1 层 不 进行 学 习 是 行 不 通 的 。 如 果 
继续 训练 深度 神经 网 络 ， 就 需要 和 弄 清 楚 如 何 解 决 梯度 消失 问题 。 


5.2 梯度 消失 的 原因 


为 了 于 清楚 梯度 消失 问题 出 现 的 原因 , 看 一 个 极 简单 的 深度 神经 网 络 : 每 层 都 只 有 单一 神经 
元 。 图 5-9 展示 了 有 3 个 隐藏 层 的 神经 网 络 。 
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图 中 w,w,,… 是 权重 ，b,b,,… 是 偏 置 ，C 是 某 个 代价 函数 。 回 顾 一 下 ， 第 j 个 神经 元 的 输 
出 a 为 o(z,), 其 中 o 是 普通 的 sigmoid 激活 函数 ，z, = wa , +b) 则 是 神经 元 的 带 权 输入 。 最 后 


标示 了 代价 函数 C 来 强调 代价 是 神经 网 络 输出 w 的 函数 : 如 果实 际 输出 接近 目标 输出 ， 那 么 代 


价 会 变 低 ， 反 之 会 变 高 。 







































































GD Sepp Hochreiter、Yoshua Bengio、Paolo Frasconi 等 人 于 2001 年 发 表 了 论文 Gradient flow in recurrent nets: the difficulty 
of learning long-term dependencies。 这 篇 论文 研究 的 是 循环 神经 网 络 ， 但 其 本 质 现象 和 这 里 研究 的 前 馈 神经 网 络 中 
的 相同 。 还 可 参考 1991 年 Sepp Hochreiter 的 学 位 论文 Untersuchungen zu dynamischen neuronalen Netzen。 
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下 面 研究 一 下 与 第 1 个 隐藏 神经 元 关联 的 梯度 6C /160 。 我 们 将 分 析 6C / 60 的 表达 式 ， 据 此 
找 出 梯度 消失 的 原因 。 

首先 给 出 6C/6b 的 表达 式 ， 见 图 5-10。 初 看 有 点 复杂 ， 但 其 结构 相当 简单 ， 稍 后 解释 ( 先 
忽略 神经 网 络 ， 其 中 o' 是 c 的 导数 )。 




















CE oO(Z1)Xw, Xo(z,) XW xo(z;) Xxw xo'(z) Xe 
ob Oa 
WwW, Ws Wa 
¥C 
图 5-10 





表达 式 结构 如 下 : 每 个 神经 元 都 有 o'(z,) 项 , 每 个 权重 都 有 WwW 项, 此 外 还 有 一 个 6C /6a 项 ， 
它 表 示 最 终 的 代价 函数 。 注意, 这 里 将 表达 式 中 的 每 一 项 置 于 对 应 的 位 置 ， 所 以 神经 网 络 本 身 就 
是 对 表达 式 的 解读 。 

你 可 以 不 深究 这 个 表达 式 , 直接 跳 到 下 文 讨论 为 何 出 现 梯 度 消失 的 内 容 。 这样 做 不 会 影响 理 
解 ， 因 为 实际 上 该 表达 式 只 是 反 向 传播 的 特例 。 不 过 ,对 于 该 表达 式 为 何 正确 ， 了 解 一 下 也 很 有 
趣 ( 可 能 还 会 给 你 有 益 的 启示 )。 


























假设 对 偏 置 b 做 了 微调 4b, ， 这 会 导致 神经 网 络 中 其 余 元 素 发 生 一 系列 变化 。 首 先 会 使 得 第 1 
急 藏 神经 元 输出 产生 La 的 变化 ， 进 而 导致 第 2 个 隐藏 神经 元 的 带 权 输 入 产生 4z, 的 变化 ,第 2 
个 隐藏 神 经 元 输出 随 之 产生 4a, 的 变化 ， 以 此 类 推 ， 最 终 输出 的 代价 会 产生 4C 的 变化 。 这 里 有 : 
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A (114) 
Bh 





这 表示 可 以 通过 仔细 追踪 每 一 步 的 影响 来 搞 清 楚 6C / 6b 的 表达 式 。 















































下 面 看 看 Lb 是 如 何 影响 第 1 个 隐藏 神经 元 的 输出 a 的 。 有 wm =o(z)=o(wao+b)， 故 有 : 


oe Ty (115) 
ob, 
=0"(z)4b, (116) 

















o"(z) 这 项 看 起 来 很 熟悉 ,其 实 是 前 面 关 于 6C /60 的 表达 式 的 第 1 项。 直观 地 说 , 这 项 将 偏 
置 的 变化 46 转 化 成 了 输出 的 变化 4a, ，4a 随 之 又 影响 了 带 权 输入 了 = wa +b,: 
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4 (117) 

= WAa, (118) 

将 4z, 和 4a 的 表达 式 组 合 起 来 , 可 以 看 到 偏 置 5 的 改变 是 如 何 通 过 神经 网 络 传播 影响 z, 的 : 
4Az, ~ oo"(z)w,ADb (119) 





结果 很 相似 : 得 到 了 表达 式 6C /0b 的 前 两 项 。 


以 此 类 推 下 去 ,跟踪 传播 改变 的 路 径 即 可 。 对 每 个 神经 元 ， 我 们 都 会 选择 一 个 o'(z,) 项， 然 
后 为 每 个 权重 选择 一 个 w, 项 。 最 终 代 价 函数 中 变化 4C 关于 偏 置 变化 40 的 表达 式 为 : 








4AC = oa) mo) (ss) -Ah (120) 
04 


除 以 Ab1， 的 确 得 到 了 梯度 的 表达 式 : 


A A A RE (121) 
5.2.1 为 何 出 现 梯度 消失 
梯度 的 完整 表达 式 如 下 : 
= 0"(z)W0"(z, oo) wo) 5 (122) 


除了 最 后 一 项 , 该 表达 式 几 乎 就 是 一 系列 wa"(z,) 的 乘积 。 为 了 理解 每 一 项 , 先 看 看 sigmoid 
函数 的 导数 的 图 像 ， 如 图 5-11 所 示 。 
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该 导数 在 o"(0)=1/4 时 达到 峰值 。 如 果 使 用 标准 方法 来 初始 化 神经 网 络 中 的 权重 , 那么 会 用 
到 一 个 均值 为 0、 标准 差 为 1 的 高 斯 分 布 , 因此 所 有 权重 通常 会 满足 | w, |k 1 。 基 于 这 些 信息 ,可 
知 有 |w,o'(z,)K1/4。 男 外 ,在 对 所 有 这 些 项 计算 乘积 后 ,最 终结 果 肯 定 会 呈 指 数 级 下 降 : 项 越 
多 ,乘积 下 降 得 越 快 。 梯 度 消失 的 原因 初 见 端倪 。 






































更 具体 一 点 ， 比 较 6C /6b, 和 稍 后 面 一 个 偏 置 的 梯度 ， 例 如 6C/6b,。 当 然 ， 还 未 明确 给 出 
6C/6b 的 表达 式 ， 但 计算 方式 是 和 6C/65 相同 的 。 二 者 的 对 比如 图 5-12 所 示 。 
1 1 
< 二 之 汪 
| 
和 =0"(z) Wo (2,) woz,) wo'(z,) 和 
| en 
二 二 A AE 
图 5-12 





这 两 个 表达 式 有 很 多 项 相同 , 但 6C/6b 多 了 两 项 。 由 于 这 些 项 都 小 于 1/4 ， 因 此 60C/6b 会 
是 6C/6b, 的 1/116 或 者 更 小 ， 这 其 实 就 是 梯度 消失 的 根本 原因 。 















































当然 , 以 上 并 非 梯度 消失 问题 的 严谨 证 明 , 而 是 一 个 不 太 正式 的 论断 , 可 能 还 有 别 的 一 些 原 因 。 
我 们 尤其 想 知道 权重 w, 在 训练 中 是 否 会 增长 , 如 果 会 , 项 wic'(z)) 是否 不 再 满足 | wa"(z,)|K1/4 
这 个 条 件 。 实 际 上 ， 如 果 项 变 得 很 大 一 一 超过 ] 一 一 那么 梯度 消失 问题 将 不 会 出 现 。 当 然 ， 这 时 
梯度 会 在 反 向 传播 中 呈 指 数 级 增长 ， 即 出 现 了 梯度 爆炸 问题 。 




















5.2.2 梯度 爆炸 问题 


下 面 分 析 梯 度 爆炸 的 原因 。 举 的 例子 可 能 不 那么 自然 : 固定 神经 网 络 中 的 参数 ， 以 确保 发 生 
梯度 爆炸 。 即 使 不 太 自 然 ， 这 个 例子 也 能 说 明 梯 度 爆炸 确实 会 发 生 ( 而 非 假 设 )。 








通过 两 个 步 又 产生 梯度 爆炸 : 首先 使 神经 网 络 的 权重 取 很 大 的 值 , 比如 mw = w, = ws = w, =100， 
然后 选择 偏 置 使 得 o"(z,) 项 不 会 太 小 。 这 很 容易 实现 : 选择 偏 置 来 保证 每 个 神经 元 的 带 权 输入 
是 z,=0 (这 样 一 来 ，o"(z,)=1/4 )。 比 如 想 要 z=wao+hb =0， 只 需 令 b=-100xa, 即 可 。 使 
用 同样 的 方法 来 获得 其 他 偏 置 ， 就 会 发 现 所 有 的 项 wo'(z,) 都 等 于 100x 了 = 25 。 最 终 就 发 生 梯 
度 爆炸 了 。 
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5.2.3 ”梯度 不 稳定 问题 


根本 问题 其 实 不 是 梯度 消失 问题 或 梯度 爆炸 问题 , 而 是 前 面 的 层 上 的 梯度 来 自 后 面 的 层 上 项 
的 乘积 。 当 层 过 多 时 ,神经 网 络 就 会 变 得 不 稳定 。 让 所 有 层 的 学 习 速 度 都 近乎 相同 的 唯一 方式 是 
所 有 这 些 项 的 乘积 达到 一 种 平衡 。 如 果 没 有 某 种 机 人 制 或 者 更 加 本 质 的 保证 来 达到 平衡 , 那么 神经 
网 络 就 很 容易 不 稳定 。 简 而 言 之 ,根本 问题 是 神经 网 络 受 限 于 梯度 不 稳定 问题 。 因 此 ， 如 果 使 用 
基于 梯度 的 标准 学 习 算 法 ,那么 不 同 的 层 会 以 不 同 的 速度 学 习 。 



































练 习 
在 关于 梯度 消失 问题 的 讨论 中 ,我 们 采用 了 |o'(z)|<1/4 这 个 结论 。 假 设 使 用 一 个 不 同 的 
激活 函数 ， 其 导数 值 更 大 ， 这 有 助 于 避免 梯度 不 稳定 问题 吗 ? 


5.2.4 梯度 消失 问题 普遍 存在 


如 前 所 述 ,在 神经 网 络 中 ,前 面 的 层 可 能 会 出 现 梯度 消失 或 梯度 爆炸 。 实 际 上 ,在 使 用 sigmoid 
神经 元 时 ,通常 发 生 的 是 梯度 消失 ,原因 见 表 达 式 | wo"(z)| 。 为 了 避免 梯度 消失 问题 ， 需 要 满足 
|wo'"(z)|=1。 也 许 你 认为 如 果 w 很 大 就 行 了 ， 实际 上 更 复杂 。 原 因 在 于 o'(z) 项 同样 依赖 w : 
o'(z)=o'(wa+b) ， 其 中 4a 是 输入 激活 值 ， 所 以 在 让 w 变 大 时 ， 需 要 保持 o'(wa+b) 不 变 小 。 这 
会 是 很 大 的 限制 ， 因 为 w 变 大 的 话 ， 也 会 使 得 wa+5 变 得 非常 大 。 看 看 o' 的 图 像 ， 就 会 发 现 它 
出 现在 o' 的 两 辟 外 ， 取 到 很 小 的 值 。 为 了 避免 出 现 这 种 情况 ， 唯 一 的 方法 是 让 输入 激活 值 落 在 
相当 小 的 范围 内 (这 个 量化 的 解释 见 下 面 第 一 个 问题 ), 这 种 情况 偶尔 会 出 现 , 但 通常 不 会 发 生 ， 
所 以 梯度 消失 问题 更 常见 。 


































































































问 题 
口 考虑 乘积 |wo'(wa+b)| 。 假 设 有 |wo'(wa+Db)|==1， 请 完成 如 下 证 明 。 
(1) 证 明 这 种 情况 只 在 |W| 关 4 时 才 会 出 现 。 
(2) 假设 |w| 二 4 ， 考 虑 满足 | wo'(wa +b) | 二 1 的 输入 激活 值 a 的 集合 。 请 证 明 : 满足 上 述 条 件 
的 集合 跨 了 一 个 不 超过 如 下 宽度 的 区 间 。 


| ! a 


|w| 2 





(3) 证 明 以 上 表达 式 在 |w|x 6.9 时 取 最 大 值 ( 约 为 0.45 )。 所 以 ， 即 使 每 个 条 件 都 满足 ， 仍 有 
一 个 小 的 输入 激活 值 区 间 ， 以 此 避免 梯度 消失 问题 。 
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口 恒 等 神经 元 : 考虑 一 个 只 有 单一 输入 的 神经 元 x ， 对 应 的 权重 为 如 ， 偏 置 为 ， 输 出 上 的 权 
重 为 好 。 请 证 明 : 通过 合理 选择 权重 和 偏 置 ， 可 以 确保 wo(wXx+Db)xX， 其 中 xe[0, 1]。 
这 样 的 神经 元 可 用 作 恒 等 神经 元 ， 即 输出 和 输入 相同 ( 按 权 重 因 子 成 比例 缩放 )。 提 示 : 可 
以 重 写 X=1/2+4， 假设 WB 很 小 ， 以 及 对 WM4 使 用 泰勒 级 数 展 开 。 


5.3 ”复杂 神经 网 络 中 的 梯度 不 稳定 


前 面 研究 了 简单 的 神经 网 络 ， 其 中 每 个 隐藏 层 只 包含 一 个 神经 元 。 那 么 ,每 个 隐藏 层 包 含 很 
多 神经 元 的 深度 神经 网 络 又 如 何 呢 ? 图 5-13 展示 了 一 个 复杂 的 深度 神经 网 络 。 








隐藏 层 1 隐藏 层 2 隐藏 层 3 


输入 层 














图 5-13 


实际 上 , 在 这 样 的 神经 网 络 中 ,同样 的 情况 也 会 发 生 。 在 介绍 反 向 传播 时 ， 本 书 提 到 了 在 一 
个 共 工 层 的 神经 网 络 中 ， 第 1 层 的 梯度 是 : 


6' 三 Ez Oo 人 TDO 六 ea 5'(z’)V,C (124) 








其 中 z'(z') 是 一 个 对 角 和 矩阵 , 它 的 每 个 元 素 是 第 1 层 的 带 权 输入 o'(z) ,，w 是 不 同 层 的 权重 矩阵 ， 
V,C 是 每 个 输出 激活 值 的 偏 导数 向 量 。 











相 比 单一 神经 元 的 情况 , 这 是 更 复杂 的 表达 式 , 但 仔细 看 的 话 , 会 发 现 本 质 上 形式 还 是 很 相 
似 的 ,主要 区 别 是 包含 了 更 多 形 如 (w7)7 2(z7) 的 对 。 而且, 矩阵 Z'(z7) 在 对 角 线 上 的 值 很 小 , 不 
会 超过 1/4 。 由 于 权重 矩阵 w” 不 是 太 大 ， 因 此 每 个 额外 的 项 (w’)"z"(z') 会 令 梯 度 向 量 更 小 ， 导 
致 梯度 消失 。 更 普遍 的 是 ， 在 乘积 中 大 量 的 项 会 导致 梯度 不 稳定 ， 类 似 于 前 面 的 例子 。 在 实践 中 ， 
往往 发 现 sigmoid 神经 网 络 中 前 面 的 层 的 梯度 指数 级 地 消失 ， 所 以 这 些 层 的 学 习 速 度 就 会 变 得 很 
慢 。 这 种 减速 并 非 偶然 现象 ， 也 是 由 所 采用 的 训练 方法 决定 的 。 
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5.4 深度 学 习 的 其 他 障碍 


本 章 着 重 研 究 了 深度 学 习 的 障碍 一 一 梯度 消失 ， 以 及 更 常见 的 梯度 不 稳定 。 实 际 上 ， 尽管 梯 
度 不 稳定 是 深度 学 习 面 临 的 根本 问题 , 但 并 非 唯一 的 障碍 。 当 前 的 研究 侧重 于 更 好 地 理解 训练 深 
度 神 经 网 络 时 遇 到 的 挑战 ,这 里 不 会 给 出 详尽 的 总 结 ， 而 会 列 出 一 些 论文 , 带 你 一 帘 当 前 的 研究 
方向 。 
































2010 年 ，Xavier Glorot 和 Yoshua Bengio" 提 出 ， 使 用 sigmoid 函数 训练 深度 神经 网 络 会 出 现 
问题 。 他 们 声称 sigmoid 函数 会 导致 训练 早期 最 终 层 的 激活 函数 在 0 附近 饱和 ， 进 而 导致 学 习 绥 
慢 。 他 们 也 给 出 了 sigmoid 函数 的 一 些 替代 选择 ， 以 消除 饱和 对 性 能 的 影响 。 


























2013 年 ，Ilya Sutskever 、James Martens 、George Dahl 和 Geoffrey Hinton ”研究 了 深度 学 习 使 
用 随机 权重 初始 化 和 基于 动量 (momentum ) 的 SGD 方法 。 在 这 两 种 情形 下 ， 好 的 选择 能 让 深度 
神经 网 络 的 训练 效果 显著 不 同 。 





以 上 例子 表明 ,“ 什 么 使 得 训练 深度 神经 网 络 非常 困难 ”这 个 问题 相当 复杂 。 本 章 着 重 研究 
了 基于 梯度 的 学 习 算 法 的 不 稳定 性 。 结 果 表 明 , 激活 函数 的 选择 、 权 重 的 初始 化 ,甚至 学 习 算 法 
的 实现 方式 都 是 影响 因素 。 当 然 ， 神 经 网 络 的 架构 和 其 他 超 参 数 也 很 重要 。 因 此 ， 有 太 多 因素 会 
影响 神经 网 络 的 训练 难度 ,理解 所 有 这 些 因 素 仍 是 当前 的 研究 重点 。 尽 管 这 听 起 来 有 点 悲观 , 但 
第 6 章 将 介绍 的 一 些 方法 在 一 定 程度 上 能 解决 和 规避 这 些 问 题 。 























GD Xavier Glorot, Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks, 2010. 
© Ilya Sutskever, James Martens, George Dahl, et al. On the importance of initialization and momentum in deep learning, 
2013. 
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第 5 章 提 到 深度 神经 网 络 通常 比 浅 层 神经 网 络 更 难 训练 , 可 以 想见 训练 深度 神经 网 络 能 够 获 
得 比 浅 层 神经 网 络 更 加 强大 的 能 力 。 然 而 现实 很 残酷 ,第 5 章 谈 到 了 很 多 困扰 ,但 这 不 能 阻止 我 
们 继续 前 行 。 本 章 将 介绍 训练 深度 神经 网 络 的 技术 ,并 在 实战 中 应 用 它们 。 本 章 也 会 更 全 面 地 探 
讨 神经 网 络 ， 简 要 介绍 近期 深度 神经 网 络 在 图 像 识别 、 语 音 识别 和 其 他 应 用 中 的 一 些 研究 进展 ， 
并 简单 预测 神经 网 络 和 人 工 智 能 的 发 展 前 景 。 











本 章 内 容 较 多 。 为 了 方便 阅读 ， 先 概述 整体 内 容 设置 。 本 音 各 节 之 间 关 联 并 不 太 紧 密 ， 如 果 
你 掌握 基本 的 神经 网 络 知识 ， 可 以 选取 自己 感 兴趣 的 部 分 阅读 。 


本 章 主要 介绍 一 种 流行 的 神经 网 络 一 一 深度 卷 积 神经 网 络 。 我们 将 细致 分 析 一 个 使 用 卷 积 神 
经 网 络 识别 MNIST 手写 数字 ( 如 图 6-1 所 示 ) 的 例子 ， 并 给 出 代码 。 


SOH/42 


图 6-1 


我 们 将 首先 用 浅 层 神经 网 络 来 解决 该 问题 ,并 通过 多 次 迭代 , 构建 出 更 强大 的 神经 网 络 。 在 
此 过 程 中 ， 也 会 探究 一 些 有 效 的 技术 : 卷 积 、 池 化 、 使 用 GPU 来 加 速 训练 、 通 过 算法 扩展 训练 
数据 (避免 过 拟 合 )、Dropout ( 避免 过 拟 合 )、 集 成 网 络 以 及 其 他 技术 。 最 终结 果 能 够 接近 人 类 
的 表现 ， 对 于 10 000 幅 MNIST 测试 图 像 (模型 在 训练 中 从 未 接触 过 的 图 像 )， 该 系统 最 终 能 将 
其 中 9967 幅 正 确 分 类 。 错 误 分 类 的 33 幅 图 像 见 图 6-2。 注 意 ， 正 确 分 类 见 右上 的 标记 ， 系 统 给 
出 的 分 类 在 右 下 。 
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图 6-2 








其 中 的 图 像 即使 对 于 人 类 来 说 也 难以 分 辨 。 例 如 第 一 行 的 第 3 幅 图 ， 我 感觉 它 更 像 是 “9” 
而 非 “8”， 但 实际 的 数字 是 “8”。 神 经 网 络 也 判定 这 是 “9%”， 这 种 “错误 ”最 起 码 是 可 以 理解 
的 ， 甚 至 是 值得 称赞 的 。 图 像 识别 讨论 的 最 后 会 总 结 最 近 深 度 卷 积 神经 网 络 在 图 像 识 别 上 的 研 


究 进展 。 





























本 章 剩余 部 分 将 从 一 个 更 宽泛 和 更 宏观 的 角度 探讨 深度 学 习 , 简单 介绍 神经 网 络 的 其 他 一 些 
模型 ， 例 如 循环 神经 网 络 和 长 短期 记忆 单元 ， 以 及 这 些 神经 网 络 如 何 应 用 于 语音 识别 、 自 然 语言 处 
理 和 其 他 领域 ; 最 后 会 简单 预测 神经 网 络 和 深度 学 习 未 来 的 发 展 方向 , 涵盖 意图 驱动 的 用 户 界面 
和 深度 学 习 在 人 工 智能 领域 的 作用 。 本 章 内 容 基 于 前 面 各 章 ,， 会 用 到 前 面 讲 过 的 反 向 传播 、 正 则 
化 、softmax 函数 等 技术 。 然 而 ， 阅 读本 章 无 须 完全 掌握 前 面 各 章 的 所 有 细节 。 当 然 ， 第 1 章 关于 
神经 网 络 的 基础 是 非常 有 帮助 的 。 本 章 偶 尔 会 提 及 第 2 章 至 第 5 章 的 概念 ， 需 要 时 可 自行 回顾 。 























部 分 内 容 本 章 未 有 涉及 。 本 章 不 介绍 最 新 、 最 强大 的 神经 网 络 库 的 用 法 ， 也 不 会 训练 数 十 层 
的 神经 网 络 来 处 理 前 治 问题 ， 而 会 讲解 深度 神经 网 络 背后 的 核心 原理 ， 并 利用 其 解决 MNIST 图 
像 分 类 问题 ， 助 你 加 深 理 解 。 换 言 之 ， 本 章 不 为 展示 前 治 的 神经 网 络 。 前 面 各 章 也 是 如 此 ， 着 重 
于 教授 基础 知识 ， 以 便 读者 理解 深度 学 习 领 域 当 前 的 研究 成 果 。 


6.1 卷 积 神经 网 络 入 门 


前 面 训练 的 神经 网 络 能 够 较 好 地 识别 手写 数字 ， 如 图 6-3 所 示 。 
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局 As 


图 6-3 











我 们 使 用 了 相 邻 层 全 连接 的 神经 网 络 来 完成 这 项 工作 , 即 神经 网 络 中 的 神经 元 与 相 邻 层 的 每 
个 神经 元 均 有 连接 ， 如 图 6-4 所 示 。 
隐藏 层 1 


隐藏 层 2 隐藏 层 3 

















对 于 输入 图 像 中 的 每 个 像素 点 , 我 们 将 其 亮度 作为 输入 层 对 应 神经 元 的 值 。 对 于 28 像素 x28 
像素 的 图 像 ， 这 意味 着 有 784 ( 28x28 ) 个 输入 神经 元 ; 然后 训练 神经 网 络 的 权重 和 偏 置 ， 使 得 


神经 网 络 输出 能 够 正确 辨认 输入 图 像 : 


0~9。 





之 前 的 神经 网 络 表现 得 相当 好 : 使 用 来 自 MNIST 手写 数字 数据 集 的 训练 数据 和 测试 数据 ， 
分 类 准确 率 超 过 98%。 但 仔细 推荐 的 话 , 使 用 层 全 连接 的 神经 网 络 来 分 类 图 像 是 很 奇怪 的 , 原因 
是 这 样 的 神经 网 络 架构 不 考虑 图 像 的 空间 结构 。 例 如 它 同等 对 待 相距 很 远 和 彼此 接近 的 输入 像素 ， 
这 样 就 必须 从 训练 数据 中 推断 空间 结构 。 如 果 使 用 一 个 能 利用 空间 结构 的 架构 ,而 不 是 从 一 个 如 
同 “白板 ”的 神经 网 络 架 构 开 始 ， 会 怎样 呢 7? 下 面 引入 卷 积 神经 网 络 "。 这 种 神经 网 络 使 用 一 种 
特殊 架构 ,适用 于 分 类 图 像 ， 能 更 快 地 进行 训练 。 因 此 它 有 助 于 训练 多 层 深度 神经 网 络 ， 且 非常 
擅长 分 类 图 像 。 如 今 深度 卷 积 神经 网 络 及 其 变 体 广泛 用 于 图 像 识别 。 


部 感受 野 、 共 享 权重 和 池 化 。 下 面 依次 介绍 。 








卷 积 神经 网 络 有 3 个 基本 概念 : 局 








@ 最 初 的 卷 积 神经 网 络 要 追溯 到 20 世纪 70 绊 





























FE 代 ， 但 现代 卷 积 网 络 学 科 的 建立 始 了 








六 1998 卫 


F Yann LeCun、 Léon Bottou、 





Yoshua Bengio 和 Patrick Haffner 发 表 的 论文 Gradient-based learning applied to document recognition。 后 来 LeCun 





对 卷 积 网 络 术语 给 出 了 有 趣 的 评论 :“ 说 卷 积 网 络 模型 的 原型 是 4 











E 物 学 上 的 神经 系统 有 点 牵强 ， 这 正 是 为 什么 我 





把 它们 称 为 卷 积 网 络 而 不 是 卷 积 神经 网 络 ， 以 及 为 什么 称 这 些 节 点 为 单元 而 不 是 神经 元 。” 尽管 如 此 评价 ， 卷 积 
如 反 向 传播 、 梯 度 下 降 、 正 则 化 、 非 线性 激活 函数 ， 等 等 ， 所 以 本 书 会 





网 络 采用 了 许多 已 有 的 神经 网 络 思想 ， 例 
遵循 惯例 ， 将 它们 视 作 一 种 神经 网 络 。 
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6.1.1 局 部 感受 野 


在 之 前 的 层 全 连接 的 神经 网 络 中 , 把 输入 描绘 成 了 纵向 排列 的 神经 元 , 但 在 卷 积 神经 网 络 中 ， 
把 输入 看 作 以 28x28 的 方形 排列 的 神经 元 更 合适 , 其 值 对 应 于 用 作 输 入 的 28x28 的 像素 亮度 , 如 
图 6-5 所 示 。 








输入 神经 元 
O000000000000000000000000000 
QOO00000000O QO0O0O000000000000 
O0000000000 O00000000000000 
QO00000000000000000000000000 
O000000000000000000000000000 
O000000000 O00000000000000 
QO000000000000000000000000000 
O0000 O0000 O000000000000 
O00O0 DOO00000000000000000000 
QO000000000000000000000000000 
O000000000000000000000000000 
O0000000000000D0000000000000 
Oooo00 O00000000000000000000 
Qo00 RR 

O0000 O000 Oooo00o0 Ooooco 


8888888888888888888883888888 
Doooooooooooooooooocoocooocooooeo 
O000000000000000000000000000 
392833339898988828380898535932 


总 局 所 O00000000000 O00000 
O000000000000000000000000000 
O000000000000000000000000000 
O000000000000000000000000000 
QO00000000000000000000000000 
O0000000000000D00000000000000 
O000000000000000000000000000 
QO000000000000Q000000000000000 
O000000000000000000000000000 
图 6-5 




















如 前 所 示 , 把 输入 像素 连接 到 一 个 隐藏 神经 元 层 , 但 不 会 把 每 个 输入 像素 连接 到 每 个 隐藏 神 
经 元 ， 而 只 对 输入 图 像 进行 小 的 局 部 连接 。 





具体 而 言 , 第 一 个 隐藏 层 中 的 每 个 神经 元 会 连接 到 一 个 输入 神经 元 的 一 小 块 区 域 , 例如 一 个 
5x5 的 区 域 ， 对 应 25 个 输入 像素 。 所 以 对 于 一 个 特定 的 隐藏 神经 元 ， 连 接 可 能 如 图 6-6 所 示 。 
输入 神经 元 


2 隐藏 神经 元 
Oo 


Qoo0o0 





图 6-6 


输入 图 像 的 这 个 区 域 称 作 sa 经 元 的 局 部 感受 野 。 它 是 输入 像素 上 的 小 窗口 ， 每 个 连接 学 
习 一 个 权重 。 隐藏 神经 元 也 学 习 一 个 总 的 偏 置 。 可 以 把 这 个 特定 的 隐藏 神经 元 看 作 在 学 习 分 析 其 
局 部 感受 野 。 
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然后 在 整个 输入 图 像 上 移动 局 部 感受 野 。 对 于 每 个 局 部 感受 时 , 第 1 个 隐藏 层 中 有 一 个 不 同 
的 隐藏 神经 元 。 清 晰 起 见 ， 从 左上 角 的 一 个 局 部 感受 时 开始， | 











价 入 神经 元 
ON ee 第 1 个 隐藏 神 经 元 
图 6-7 
然后 把 局 部 感受 野 向 右 移 动 1 像素 (一 个 神经 元 ), 连接 到 第 2 个 隐藏 神经 元 , 如 图 6-8 所 示 。 
输入 神经 元 
中 第 2 个 隐藏 神经 元 
on 
图 6-8 








如 此 重复 ， 构 建 出 第 一 个 隐藏 层 。 注 意 ， 如 果 输 入 图 像 为 28x28， 局 部 感受 野 为 5x5， 那 么 
隐藏 层 中 就 会 有 24x24 个 神经 元 。 这 是 因为 在 抵达 右边 (或 者 底部 ) 的 输入 图 像 之 前 ， 只 能 把 局 
部 感受 野 横向 ( 或 者 向 下 ) ey 23 个 神经 元 。 


前 面 对 局 部 感受 时 每 次 移动 1 像素， 实际 上 有 时 会 使 用 不 同 的 跨 距 ( stride )， 例 如 可 以 把 局 
部 感受 野 向 右 (或 向 下 ) 移动 2 像素 ， 这 种 情况 下 跨 距 为 2。 本 章 基 本 会 采用 跨 距 为 1， 但 也 可 
以 试用 不 同 的 跨 距 "。 


















































Q@ 如 前 所 示 , 如 果 对 尝试 不 同步 长 感 兴趣 , 可 以 使 用 验证 数据 来 挑选 能 达到 最 佳 性 能 的 跨 距 ,详细 内 容 参 见 前 面 关于 
如 何 选择 神经 网 络 的 超 参 数 的 讨论 。 相 同 的 方法 也 可 以 用 于 选择 局 部 感受 野 的 大 小 ， 当然 ， 对 于 5x5 的 局 部 感受 野 
没有 什么 特别 的 。 通 常 ， 当 输入 图 像 显 著 大 于 28x28 像素 的 MNIST 图 像 时 ， 更 大 的 局 部 感受 野 往往 是 有 益 的 。 
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6.1.2 ”共享 权重 和 偏 置 


前 面 讲 过 , 每 个 隐藏 神经 元 具有 一 个 偏 置 和 连接 到 其 局 部 感受 野 的 5x5 权重 , 但 没有 人 入 
们 打算 对 24x24 隐藏 神经 元 中 的 每 一 个 使 用 相同 的 权重 和 偏 置 。 换 言 之 ， 对 第 j, 个 隐藏 神经 
其 输出 为 : 



































4 4 
o >» | (125) 


{=0 m=0 








其 中 o 是 神经 元 的 激活 函数 ， 可 以 是 前 面 讲 过 的 sigmoid 函数 ,，b 是 偏 置 的 共享 值 ，w, , 是 一 个 
共享 权重 的 5x5 数组 。 最 后 ， 用 a,, 表示 位 置 x,y 的 输入 激活 值 。 





这 意味 着 第 一 个 隐藏 层 的 所 有 神经 元 检测 完全 相同 的 特征 ”, 区 别 是 在 输入 图 像 的 不 同位 置 。 
要 理解 其 原理 , 可 以 把 权重 和 偏 置 想象 成 隐藏 神经 元 可 以 挑选 的 东西 , 例如 在 特定 局 部 感受 野 的 
垂直 边缘 ,这 种 能 力 对 图 像 的 其 他 位 置 也 是 有 用 的 。 因 此 ， 对 图 像 应 用 相同 的 特征 检测 需 是 非常 
有 用 的 。 用 稍微 抽象 点 的 术语 来 讲 ， 卷 积 神经 网 络 能 很 好 地 适应 图 像 的 平移 不 变性 ,例如 稍稍 移 
动 一 幅 猫 的 图 像 ， 它 仍然 是 一 幅 猫 的 图 像 ”。 


出 于 这 个 原因 ,有 时 把 从 输入 层 到 隐藏 层 的 映射 称 为 特征 映射 , 把 定义 特征 映射 的 权重 称 为 
共享 权重 , 把 以 这 种 方式 定义 特征 映射 的 偏 置 称 为 共享 偏 置 。 共 享 权 重 和 共享 偏 置 常 称 作 卷 积 核 
或 者 滤波 器 。 某 些 文献 的 表述 方式 稍微 不 同 ， 这 里 不 做 严格 区 分 ， 稍 后 给 出 一 些 具体 的 例子 。 

目前 的 神经 网 络 架构 只 能 检测 一 种 局 部 特征 ,为 了 识别 出 图 像 ， 需 要 更 多 特征 映射 ， 所 以 一 
个 完整 的 卷 积 层 由 几 个 不 同 的 特征 映射 组 成 ， 如 图 6-9 所 示 。 


28x28 个 输入 神经 元 第 一 个 隐藏 层 ，3x24x24 个 神经 元 































































































@ 还 没有 明确 定义 特征 的 概念 。 非 正式 地 说 ， 可 以 把 隐藏 神 经 元 检测 到 的 特征 看 作 能 激活 神经 元 的 输入 模式 ， 例 如 

可 能 是 图 像 的 一 条 边 ， 或 者 其 他 形状 。 

@) 实际 上 ， 对 于 正 在 究 的 MNIST 数字 分 类 问题 ， 这 些 图 像 居 于 中 心 ， 而 且 尺寸 统一 ， 所 以 MNIST 比 一 般 的 图 像 
有 更 少 的 平移 不 变性 ， 但 输入 空间 中 的 很 多 特征 仍然 可 能 是 有 用 的 ， 比 如 边缘 和 角 点 。 
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本 例 中 有 3 个 特征 映射 ,每 个 特征 映射 定义 为 一 个 5x5 共享 权重 和 单个 共享 偏 置 的 集合 。 结 
果 是 神经 网 络 能 够 检测 3 种 特征 ， 在 整 幅 图 像 中 每 种 特征 都 可 检测 。 











简单 起 见 ， 图 6-9 只 展示 了 3 个 特征 映射 , 实践 中 卷 积 神经 网 络 可 能 使 用 很 多 特征 映射 。 
LeNet-5 是 一 种 早期 用 于 识别 MNIST 数字 的 卷 积 神经 网 络 , 它 使 用 了 6 个 特征 映射 ,每 个 关联 到 
一 个 5x5 的 局 部 感受 野 ， 所 以 图 6-9 所 示 的 例子 实际 上 和 LeNet-5 很 接近 。 在 稍 后 的 例子 中 ,我 
们 将 使 用 具有 20 个 和 40 个 特征 映射 的 卷 积 层 。 已 经 学 到 的 一 些 特征 如 网 6-10" 所 示 。 




















| 
| 
由 
: 








图 6-10 


这 20 幅 图 像 对 应 了 20 个 特征 映射 ( 或 滤波 器 、 卷 积 核 )。 每 个 映射 有 一 个 5x5 的 图 像 表 示 ， 

对 应 局 部 感受 野 中 的 5x5 权重 。 白 色 块 意味 着 权重 较 小 ( 往往 为 负 )， 所 以 这 样 的 特征 映射 对 相 

应 的 输入 像素 的 响应 更 少 ; 更 暗 的 块 意味 着 权重 更 大 , 所 以 这 样 的 特征 映射 对 相应 的 输入 像素 的 
响应 更 多 。 笼 统 地 说 ， 图 6-10 中 的 图 像 显 示 了 卷 积 层 做 出 响应 的 特征 类 型 。 

从 这 些 特征 映射 中 能 得 出 什么 结论 呢 ? 显然 , 这 里 有 意料 之 外 的 空间 结构 : 这 些 特征 有 清晰 

的 、 或 亮 或 暗 的 子 区 域 ， 这 表示 神经 网 络 实际 上 正在 学 习 和 空间 结构 相关 的 内 容 。 然 而 ， 除 此 之 

外 ， 很 难说 清 这 些 特征 检测 器 在 学 什么 。 当 然 ， 这 里 并 不 是 在 介绍 Gabor 滤波 器 ， 它 用 于 很 多 传 

统 的 图 像 识 别 方法 。 实际 上 , 现在 有 许多 研究 成 果 利 用 卷 积 神经 网 络 来 更 好 地 理解 特征 。 如 果 你 

感 兴趣 ,可 以 参考 Matthew Zeiler 和 Rob Fergus 于 2013 年 发 表 的 论文 Visualizing and Understanding 


Convolutional Networks 。 


共享 权重 和 偏 置 有 一 个 很 大 的 优点 : 大 大 减少 了 卷 积 神经 网 络 所 用 的 参数 。 对 于 每 个 特征 映 









































Q@ 图 中 所 示 的 特征 映射 来 自 最 后 训练 的 卷 积 神经 网 络 。 
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射 ， 需 要 25 (5x5 ) 个 共享 权重 ， 加 上 一 个 共享 偏 置 ， 所 以 每 个 特征 映射 需要 26 个 参数 。 如 果 
有 20 个 特征 映射 ,那么 总 共有 20x26 = 520 个 参数 来 定义 卷 积 层 。 作 为 对 比 , 假设 一 个 全 连接 的 
第 一 层 具 有 784 ( 28x28 ) 个 输入 神经 元 ， 和 相对 适中 的 30 个 隐藏 神 经 元 ， 正 如 前 面 很 多 例子 中 
使 用 的 。 总 共 784x30 个 权重 ,， 加 上 额外 的 30 个 偏 置 ， 所 以 共有 23 550 个 参数 。 换 言 之 , 这 个 全 
连接 层 的 参数 比 卷 积 层 多 约 40 倍 。 


当然 , 不 能 直接 比较 参数 数量 ,因为 这 两 个 模型 本 质 上 是 不 同 的 , 但 直观 而 言 ， 卷 积 层 的 平 
移 不 变性 似乎 能 减少 全 连接 模型 中 达到 同等 性 能 所 需要 的 参数 。 这 将 加 速 卷 积 模型 训练 , 进而 有 
助 于 使 用 卷 积 层 构建 深度 神经 网 络 。 


顺便 提 一 下 ， 卷 积 (convolutional ) 一 词 源 自 方程 (125) 中 的 卷 积 (convolution ) 运算 符 * 。 
有 时 人 们 把 这 个 方程 写成 w =o(b5+w*a") ,其 中 a 表示 来 自 一 个 特征 映射 的 输出 激活 值 集合 , a 
是 输入 激活 值 的 集合 ，* 表示 卷 积 运 算 。 本 书 不 会 涉及 太 多 的 卷 积 数学 知识 ， 所 以 不 用 太 担 心 , 但 
不 妨 了 解 这 个 名 称 的 由 来 。 






































































































































6.1.3 池 化 层 


除了 刚刚 介绍 的 卷 积 层 ， 卷 积 神经 网 络 也 包含 池 化 层 。 池 化 层 通常 跟 在 卷 积 层 之 后 使 用 , 用 
于 简化 从 卷 积 层 输出 的 信息 。 


























具体 而 言 , 池 化 层 获 取 从 卷 积 层 输 出 的 每 一 个 特征 映射 ", 并且 生 成 一 个 个 凝 缩 的 特征 映射 。 
例如 池 化 层 的 每 个 单元 可 能 概括 了 前 一 层 的 一 个 ( 比如 2x2 ) 区 域 。 实 践 中 ， 一 个 常用 的 池 化 程 
序 是 最 大 池 化 ( max-pooling )。 在 最 大 池 化 中 ， 一 个 池 化 单元 简单 地 输出 其 2x2 输入 区 域 的 最 大 
激活 值 ， 如 图 6-11 所 示 。 














(特征 映射 输出 的 ) 隐藏 神经 元 
最 大 池 化 单元 


00 一 一 一)O 


6-11 









































Q@ 这 里 使 用 的 术语 并 不 那么 严谨 ,例如 “特征 映射 ”不 是 指 由 卷 积 层 计算 出 来 的 函数 ， 而 是 指 该 层 隐藏 神经 元 输出 
的 激活 值 。 这 种 术语 的 轻 度 滥用 在 研究 文献 中 相当 普遍 。 
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注意 ,既然 卷 积 层 有 24x24 个 神经 元 输出 ， 池 化 后 会 得 到 12x12 个 神经 元 。 如 前 所 述 ， 卷 积 
层 的 特征 映射 往往 不 止 一 个 ,我 们 将 最 大 池 化 分 别 应 用 于 每 一 个 特征 映射 ,如 果 有 3 个 特征 映射 ， 
组 合 在 一 起 的 卷 积 层 和 最 大 池 化 层 会 如 图 6-12 所 示 。 











28x28 个 输入 神经 元 3x24x24 个 神经 元 





3x12x12 个 神经 元 




















图 6-12 





可 以 把 最 大 池 化 看 作 神 经 网 络 询问 是 否 在 图 像 区 域 的 某 处 发 现 某 个 特征 的 一 种 方式 , 然后 丢 
弃 具体 的 位 置信 息 。 直 观 而 言 , 一 旦 发 现 特 征 , 特征 的 具体 位 置 便 不 如 它 相对 于 其 他 特征 的 大 概 
位 置 重要 。 这 样 有 一 个 很 大 的 好 处 : 可 以 有 很 多 特征 较 少 地 被 池 化 , 所 以 这 有 助 于 减少 后 面 的 层 
所 需 的 参数 数量 。 


最 大 池 化 并 非 唯一 的 池 化 技术 ， 妃 一 个 稼 用 方法 是 L2 池 化 。 这 里 取 2x2 区 域 中 激活 值 的 平 
方 和 的 平方 根 ， 而 不 是 最 大 激活 值 。 尽 管 细节 不 同 , 但 直观 上 和 最 大 池 化 很 相似 : L2 池 化 是 一 种 
把 卷 积 层 输出 的 信息 进行 凝 缩 的 方式 。 实 践 中 ,两 种 技术 都 广泛 应 用 , 有 时 人 们 也 会 执行 其 他 池 
化 操作 。 如 果 你 正在 尝试 提升 性 能 , 可 以 使 用 验证 数据 来 比较 不 同 的 池 化 方法 , 找 出 效果 最 好 的 。 
这 里 不 会 涉及 如 此 精细 的 优化 。 





























综合 运用 : 下 面 把 上 述 思 想 综 合 起 来 构建 一 个 完整 的 卷 积 神经 网 络 。 它 和 前 面 的 架构 相似 ， 
但 有 额外 的 一 层 , 包含 10 个 输出 神经 元 , 对 应 10 个 可 能 的 MNIST 数字 (0~9), 如 图 6-13 所 示 。 
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图 6-13 
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该 神经 网 络 始 于 28x28 个 输入 神经 元 ,这 些 神经 元 负责 对 MNIST 图 像 的 像素 亮度 进行 编码 ; 
随后 是 卷 积 层 ， 使 用 5x5 局 部 感受 野 和 3 个 特征 映射 ， 卷 积 层 包含 3x24x24 个 隐藏 特征 神经 元 ; 
接着 是 最 大 池 化 层 , 应 用 于 2x2 区 域 , 遍及 3 个 特征 映射 , 最 大 池 化 层 包含 3x12x12 个 隐藏 特征 
神经 元 。 






























































最 后 连接 的 层 是 全 连接 层 , 具体 而 言 , 该 层 将 最 大 池 化 层 的 每 一 个 神经 元 连接 到 每 一 个 输出 
神经 元 。 该 全 连接 架构 和 前 面 使 用 的 相同 。 简 单 起 见 , 图 6-13 只 使 用 了 单个 箭头 ， 而 没有 显示 所 
有 连接 ， 这 些 连接 很 容易 想象 。 


该 卷 积 架构 和 前 面 使 用 的 架构 相当 不 同 , 但 是 总 体 而 言 是 相似 的 : 神经 网 络 由 很 多 简单 的 单 
元 构成 , 这 些 单 元 的 行为 由 它们 的 权重 和 偏 置 决定 。 它 们 的 总 体 目标 是 相同 的 : 使 用 训练 数据 训 
练 神经 网 络 的 权重 和 偏 置 ， 使 得 神经 网 络 可 以 正确 分 类 输入 数字 。 


如 前 所 述 , 我 们 将 用 随机 梯度 下 降 算 法 和 反 向 传播 算法 训练 神经 网 络 , 处理 方式 和 前 面 的 大 
体 相同 。 当 然 ， 需要 对 反 向 传播 程序 做 些 修改 ,原因 是 之 前 反 向 传播 的 推导 是 针对 层 全 连接 的 
神经 网 络 , 好 在 针对 卷 积 层 和 最 大 池 化 层 的 推导 也 很 简单 。 如 果 你 想 掌 握 细节 , 请 思考 下 面 的 问 
题 。 注 意 ， 解 决 这 个 问题 可 能 需要 花 些 时 间 ， 除 非 你 理解 了 前 面 的 反 向 传播 的 推导 。 



































































































































问 题 
卷 积 神经 网 络 中 的 反 向 传播 
在 一 个 具有 全 连接 层 的 神经 网 络 中 ， 反 向 传播 的 核心 方程 是 (BP1) ~ (BP4)， 见 第 2 章 。 假 
设 有 这 样 一 个 神经 网 络 , 它 有 一 个 卷 积 层 、 一 个 最 大 池 化 层 和 一 个 全 连接 的 输出 层 , 如 前 所 述 ， 
如 何 修改 反 向 传播 的 方程 呢 ? 


6.2 ” 卷 积 神经 网 络 的 实际 应 用 


前 面 介绍 了 卷 积 神经 网 络 背 后 的 核心 思想 , 下面 实现 一 些 卷 积 神经 网 络 , 并 将 其 用 于 MNIST 
手写 数字 分 类 问题 ， 来 看 看 它们 如 何在 实践 中 工作 。 我 们 将 使 用 network3.py 程序 ， 它 是 前 面 开 
发 的 network.py 和 network2.py 的 强化 版 本 "。 注 意 ， 稍 后 将 讲解 network3.py 的 代码 ， 接 下 来 先 
把 network3.py 用 作 库 来 构建 卷 积 神经 网 络 。 



































Qa 注意 ,network3.py 包含 了 源 自 Theano 库 文档 中 关于 卷 积 神经 网 络 (尤其 是 LeNet-5 的 实现 ) 的 想法 、Misha Denil 
对 Dropout 的 实现 ， 以 及 Chris Olah 提出 的 概念 。 
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程序 network.py 和 network2.py 是 用 Python 和 和 抑 阵 库 NumpPy 实现 的 。 关 于 这 些 程序 ， 前 面 
已 经 介绍 了 其 理论 基础 ， 以 及 反 向 传播 算法 和 随机 梯度 下 降 算法 等 细节 。 对 于 network3.py， 我 
们 会 使 用 机 器 学 习 库 Theano"， 用 它 实 现 针对 卷 积 神经 网 络 的 反 向 传播 ， 因 为 它 会 自动 计算 相关 
映射 。Theano 也 比 前 面 的 代码 运行 更 快 〈 那 些 代 码 仅 为 理解 方便 ， 未 考虑 运行 速度 )， 这 使 其 可 
实际 用 于 训练 更 复杂 的 神经 网 络 。 此 外 , Theano 的 一 个 非常 好 的 特性 是 它 能 在 CPU 甚至 GPU 上 
运行 。 在 GPU 上 运行 能 显著 提速 ， 并 且 有 助 于 训练 更 复杂 的 神经 网 络 。 





























跟随 本 书 进行 实践 的 话 ， 需 要 在 你 的 系统 上 运行 Theano， 请 按照 项 目 主 页 上 的 说 明 来 安装 
Theano。 接 下 来 的 例子 要 用 到 Theano 0.6”， 有 些 能 在 无 GPU 支持 的 macOS X Yosemite 上 运行 ， 
有 些 能 在 有 NVIDIA GPU 支持 的 Ubuntu 14.04 上 运行 ， 有 些 在 两 个 系统 中 都 能 运行 。 为 了 运行 
network3.py， 需 要 把 network3.py 源码 中 的 GPU 标志 设置 为 True 或 者 False。 此 外 ， 为 了 在 GPU 
上 运行 Theano， 可 能 需要 阅读 相关 指南 。 网 上 也 有 教程 ， 可 自行 搜索 。 如 果 你 的 系统 没有 可 用 
的 GPU， 可 以 考虑 Amazon Web Services EC2 G2 实例 。 注 意 ， 即 使 有 GPU 支持 ， 代 码 也 仍然 需 
要 一 些 时 间 来 执行 。 许 多 试验 用 时 从 几 分 钟 到 几 小 时 不 等 ,在 CPU 上 进行 某 些 复杂 的 试验 可 能 
需要 花费 数 天 。 如 前 所 述 ， 建 议 让 程序 运行 着 ， 同 时 继续 阅读 ， 偶 尔 检查 一 下 代码 输出 。 如 果 你 
用 的 是 CPU ， 进 行 复杂 的 试验 可 能 需要 减少 训练 轮 数 ， 或 者 干脆 不 尝试 。 


























为 了 确立 一 条 基线 , 我 们 将 从 一 个 浅 层 架 构 开 始 , 它 仅 仅 使 用 一 个 隐藏 层 , 包含 100 个 隐藏 神 
经 元 。 我 们 会 训练 60 轮 ， 学 习 率 采用 = 0.1， 小 批量 的 大 小 为 10， 没 有 正则 化 。 代 码 如 下 所 示 : 





>>> import network3 
>>> from network3 import Network 
>>> from network3 import ConvPoolLayer, FullyConnectedLayer, SoftmaxLayer 
>>> training data, validation data, test data = network3.1oad data shared() 
>>> mini batch size = 10 
>>> net = Network([ 
FullyConnectedLayer(n_in=784，n_out=100)， 
SoftmaxLayer(n_in=100，n_out=10)]，mini_batch_size) 
>>> net.SGD(training data, 60, mini batch size, 0.1, 
validation data, test data) 


分 类 准确 率 达 到 了 97.80%, 目 前 最 佳 ,这 是 在 test_data 上 的 分 类 准确 率 ,在 validation_data 
上 评估 达到 了 最 高 的 分 类 准确 率 ,使 用 验证 数据 来 决定 何 时 评估 测试 准确 率 以 避免 测试 数据 过 拟 





人 可 参考 论文 Theano: 4 CPU and GPU Math Expression Compiler in Python, 由 James Bergstra 、Olivier Breuleux 、 
Frederic Bastien 等 人 于 2010 年 发 表 。Theano 也 是 流行 的 神经 网 络 库 Pylearn2 和 Keras 的 基础 。 写作 本 章 时 其 他 流 
行 的 神经 网 络 库 有 Caffe 和 Torch。 

@) 写作 本 章 时 ，Theano 的 版 本 升级 到 了 0.7。 我 在 Theano 0.7 中 运行 过 这 些 例子 ， 结 果 和 文中 的 非常 相似 。 
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合 。 由 于 神经 网 络 的 权重 和 偏 置 是 随机 初始 化 的 ， 因 此 你 的 结果 可 能 与 之 稍 有 不 同 "。 





这 个 97.80% 的 准确 率 接近 第 3 章 中 取得 的 98.04%， 当 时 使 用 了 相似 的 神经 网 络 架 构 和 学 习 
超 参 数 。 两 个 例子 都 使 用 了 浅 层 神经 网 络 ， 具 有 包含 100 个 隐藏 神经 元 的 单个 隐藏 层 。 二 者 都 训 
练 了 60 轮 ， 小 批量 大 小 为 10， 学 习 率 =0.1。 




















然而 , 之 前 的 神经 网 络 有 两 处 不 同 。 首先 , 之 前 的 神经 网 络 通 过 正则 化 来 降低 过 拟 合 的 影响 。 
正则 化 当前 的 神经 网 络 确实 可 以 提高 准确 率 , 但 收效 甚 微 , 因此 稍 后 再 考虑 正则 化 。 其 次 , 之 前 的 
神经 网 络 在 最 终 层 使 用 了 sigmoid 激活 函数 和 交叉 入 代 价 函 数 ， 当 前 神经 网 络 的 最 终 层 使 用 了 
softmax 函数 以 及 对 数 似 然 代 价 函 数 。 正 如 第 3 章 中 解释 的 ， 这 不 是 大 的 改变 。 这 人 么 做 没有 什么 特 
别 深刻 的 原因 ， 主 要 是 因为 softmax 函数 和 对 数 似 然 代价 函数 在 现代 图 像 分 类 神经 网 络 中 很 常用 。 


使 用 更 深 的 神经 网 络 架 构 ， 效 果 会 更 好 吗 ? 












































首先 在 神经 网 络 起 始 位 置 的 右边 插入 一 个 卷 积 层 。 我 们 将 使 用 5x5 局 部 感受 野 ， 跨 距 为 1， 
20 个 特征 映射 ， 还 会 搬入 一 个 最 大 池 化 层 ， 它 用 2x2 的 池 化 窗口 来 合并 特征 。 因 此 神经 网 络 架 
构 整 体 看 起 来 很 像 前 面 讨论 的 架构 ,但 是 有 一 个 额外 的 全 连接 层 ， 如 图 6-14 所 示 。 











10 个 神 
卷 积 层 100 个 sigmoid 经 元 的 
A 神经 元 ” 输出 层 
28x28 | 了 24x24 池 化 层 A (50ftmax) 
人 | 20x12x12 只 
[一 
图 6-14 














在 这 个 架构 中 ,可 以 把 卷 积 层 和 池 化 层 看 作 在 学 习 输 入 训练 图 像 中 的 局 部 感受 野 ,而 后 面 的 全 
连接 层 在 更 抽象 的 层次 上 进行 学 习 , 从 整个 图 像 整 合 全 局 信息 , 这 是 一 种 常见 的 卷 积 神经 网 络 模 型 。 






































下 面 训 练 一 个 这 样 的 神经 网 络 ， 看 看 它 表现 如 何 ”。 





际 上 ,试验 中 对 这 个 架构 的 神经 网 络 执行 了 3 次 训练 ,并 记录 了 3 次 运行 中 最 高 验证 准确 率 对 应 的 测试 准确 率 。 

次 运行 有 助 于 减少 结果 中 的 变动 ， 这 在 比较 多 个 架构 时 很 有 用 。 除 非 明 确 指出 ,否则 下 面 继 续 使 用 该 程序 。 在 
中 ， 所 得 结果 不 会 因此 产生 什么 区 别 。 
继续 使 用 一 个 大 小 为 10 的 小 批量 。 如 前 所 述 , 使 用 更 大 的 小 批量 可 以 提高 训练 速度 。 继 续 使 用 相同 的 小 批量 
在 和 之 前 的 试验 保持 一 致 。 
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>>> net = Network([ 
ConvPoolLayer(image_shape=(mini_batch_size，1，28，28)， 
filter shape=(20，1，5，5)， 
poolsize=(2，2))， 
FullyConnectedLayer(n_in=20*12*12,n_out=100)， 
SoftmaxLayer(n in=100, n out=10)], mini batch size) 
>>> net.SGD(training data, 60, mini batch size, 0.1, 
validation data, test data) 




















准确 率 达 到 了 98.78%， 这 是 相当 大 的 提升 ,超过 了 前 面 那 些 架 构 。 实 际 上 ,错误 率 降低 了 
超过 1/3， 这 是 很 大 的 进步 。 
































在 设 定神 经 网 络 架构 时 ， 我 把 卷 积 - 池 化 层 视 作 单个 层 。 不 管 把 它们 视 为 分 开 的 层 还 是 单个 
层 ， 都 只 是 个 人 偏好 和 习惯 。network3.py 视 它们 为 单个 层 ， 因 为 这 样 使 得 代码 更 紧凑 。 当 然 ， 
需要 的 话 ， 可 以 简单 修改 network3.py， 以 便 单独 指定 这 些 层 。 











练 习 
如 果 删 除了 全 连接 层 ， 只 使 用 卷 积 - 池 化 层 和 softmax 层 ， 分 类 准确 率 会 如 何 ? 加 入 全 连 
接 层 有 帮助 吗 ? 
98.78% 的 分 类 准确 率 还 有 提升 空间 吗 ? 
下 面 尝 试 插 入 第 2 个 卷 积 - 池 化 层 , 把 它 插 在 已 有 的 卷 积 - 池 化 层 和 全 连接 隐藏 层 之 间 。 再 次 
使 用 5x5 局 部 感受 野 ， 池 化 2x2 的 区 域 。 看 看 用 与 之 前 相似 的 超 参 数 训练 会 发 生 什么 。 








>>> net = Network([ 

mini batch size，1，28，28)， 
(20，1，5，5)， 

2))， 
ConvPoolLayer(image_shape=(mini_batch_size，20，12，12)， 
filter shape=(40，20，5，5)， 
poolsize=(2，2))， 
FullyConnectedLayer(n in=40*4*4, n_out=100)，, 
SoftmaxLayer(n in=100, n out=10)], mini batch size) 


ConvPoolLayer(image_shape=( 
filter shape= 
poolsize=(2， 








>>> net.SGD(training data, 60, mini batch size, 0.1, 
validation data, test data) 





又 实现 了 提升 : 分 类 准确 率 达 到 了 99.06%。 


其 中 存在 两 个 问题 。 第 一 个 问题 是 ， 应 用 第 2 个 卷 积 - 池 化 层 意味 着 什么 ?实际 上 ， 可 以 认 
为 第 2 个 卷 积 - 池 化 层 输 入 12x12 幅 “ 图 像 »， 其 “像素 ”代表 原始 输入 图 像 中 特定 的 局 部 特征 是 
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否 存在 ， 所 以 可 以 认为 这 一 层 输 入 原始 输入 图 像 的 一 个 版 本 。 这 个 版 本 是 经 过 抽象 和 凝 缩 过 的 ， 
但 仍 有 大 量 空间 结构 ， 所 以 使 用 第 2 个 卷 积 - 池 化 层 是 有 意义 的 。 


这 个 说 法 颇具 说 服 力 ,但 是 引出 了 第 2 个 问题 。 前 面 层 的 输出 涉及 20 个 独立 的 特征 映射 ， 
所 以 第 2 个 卷 积 - 池 化 层 有 20x12x12 个 输入 , 就 好 像 有 20 幅 单 独 的 图 像 输 入 到 卷 积 - 池 化 层 ， 而 
不 是 第 一 个 卷 积 - 池 化 层 情况 下 的 单 幅 图 像 。 第 2 个 卷 积 - 池 化 层 中 的 神经 元 应 该 如 何 响应 这 些 输 
入 图 像 呢 ?实际 上 , 我 们 将 允许 这 一 层 中 的 每 个 神经 元 学 习 其 局 部 感受 野 中 的 所 有 (20x5x5 个) 
输入 神经 元 。 非 正式 地 说 ,第 2 个 卷 积 - 池 化 层 中 的 特征 检测 器 可 以 访问 前 面 层 的 所 有 特征 ， 但 
仅 限于 其 特定 的 局 部 感受 野 ”。 





















































问 题 

使 用 tanh 激活 函数 

前 面 多 次 提 到 ,tanh 函数 是 比 sigmoid 函数 更 好 的 激活 函数 ,但 还 没有 实践 过 ,因为 sigmoid 
的 表现 很 不 错 。 下 面 用 tanh 作为 激活 函数 进行 试验 , 尝试 训练 卷 积 层 和 全 连接 层 中 具有 tanh 激 
活 值 的 神经 网 络 ” 。 开 始 时 使 用 sigmoid 神经 网 络 中 使 用 的 超 参 数 ， 但 是 训练 20 轮 ， 而 不 是 60 
轮 ， 和 神经 网 络 表现 得 怎么 样 ? 如 果 继 续 训 练 到 60 轮 会 怎样 ? 试 着 将 tanh 神经 网 络 和 sigmoid 
神经 网 络 每 轮 的 验证 准确 率 都 绘制 出 来 。 如 果 你 的 结果 和 我 的 相似 ， 你 会 发 现 tanh 神经 网 络 
训练 得 稍 快 些 ， 但 最 终 的 准确 率 非 常 相 近 。 为 什么 tanh 神经 网 络 可 以 训练 得 更 快 ? 你 能 否 用 
sigmoid 达到 相似 的 训练 速度 ,也 许 通 过 改变 学 习 率 ， 或 者 做 些 调整 "” 试 着 通过 五 六 次 和 欠 代 来 
学 习 超 参 数 和 神经 网 络 架构 ， 寻 找 tanh 优 于 sigmoid 的 方面 。 注 意 : 这 是 一 个 开放 式 问题 ， 我 
个 人 没有 找到 切换 为 tanh 的 太 多 优势 , 不 过 我 没有 全 面 地 做 过 试验 ,也许 你 会 找到 一 个 方法 。 
下 面 将 介绍 切换 到 修正 线性 激活 函数 的 一 个 优势 ， 所 以 我 们 不 会 深入 使 用 tanh 函数 。 


6.2.1 使 用 修正 线性 单元 


至 此 , 我 们 开发 的 神经 网 络 实际 上 是 1998 年 发 表 的 一 篇 开创 性 论文 ?中 介绍 的 其 中 一 种 神经 
网 络 ( LeNet-5 ) 的 变 体 ， 并 引入 了 MNIST 图 像 分 类 问题 。 这 为 进一步 试验 以 增强 理解 与 直观 感 
受 打 下 了 很 好 的 基础 。 有 多 种 方式 可 用 于 修改 神经 网 络 并 改善 结果 。 









































Q@ 如 果 输 入 图 像 是 彩色 的 ， 这 个 问题 会 在 第 一 层 中 出 现 。 在 这 种 情况 下 ， 每 个 像素 点 会 有 3 个 输入 特征 ， 对 应 输入 图 像 

中 的 红色 通道 、 绿 色 通 道 和 蓝 色 通 道 。 因 此 ， 我 们 将 允许 特征 检测 器 访 问 所 有 颜色 信息 ， 但 限于 给 定 的 局 部 感受 野 。 

@ 注意， 可 以 将 activation fn=tanh 作为 参数 传递 给 ConvPoolLayer 类 和 FullyConnectedLayer 类 。 

@@ 可 以 回顾 clz) = (1 + tanh(z/2))/2 找寻 灵感 。 

(@ Gradient-based learning applied to document recognition, 作者 是 Yann LeCun、Léon Bottou、Yoshua Bengio 等 人 。 
尽管 细节 上 有 很 多 不 同 ， 但 我 们 的 神经 网 络 和 论文 中 描述 的 神经 网 络 非 常 相似 。 
















































































6.2 ” 卷 积 神经 网 络 的 实际 应 用 189 














首先 改变 神经 元 ， 使 用 修正 线性 单元 而 不 是 sigmoid 激活 函数 。 具 体 而 言 ， 我 们 将 使 用 激活 
函数 f(z)=max(0, z)， 训 练 60 轮 ， 设 置 学 习 率 7 =0.03。 此 外 ，L2 正则 化 也 有 帮助 ， 使 用 正则 化 





参数 1 = 0.1: 


>>> from network3 import ReLU 
>>> net = Network([ 
ConvPoolLayer(image shape=(mini batch size, 1, 28, 28), 
filter shape=(20, 1, 5, 5), 
poolsize=(2，2)， 
activation fn=ReLU), 
ConvPoolLayer(image_shape=(mini_batch_size，20，12，12)， 
filter shape=(40，20，5，5)， 
poolsize=(2，2)， 
activation fn=ReLU)， 
Ful1yConnectedLayer(n_in=40*4*4，n_out=100，activation fn=ReLU)， 
SoftmaxLayer(n in=100, n out=10)], mini batch size) 
>>> net.SGD(training data, 60, mini batch size, 0.03, 
validation data, test data, lmbda=0.1) 











分 类 准确 率 达到 了 99.23%， 稍 好 于 使 用 sigmoid 的 结果 ( 99.06% )。 然 而 ， 在 我 所 有 的 试验 


中 ， 基 于 修正 线性 单元 的 神经 网 络 的 性 能 始终 优 于 基于 sigmoid 激活 函数 的 神经 网 络 。 似 乎 对 于 


这 个 问题 ， 切 换 到 修正 线性 单元 确实 有 帮助 。 


修正 线性 激活 函数 好 于 sigmoid 激活 函数 和 tanh 激活 函数 的 原因 是 什么 ?目前 对 此 还 没有 很 
好 的 解释 。 实 际 上 ,修正 线性 单元 近 几 年 才 流 行 起 来 , 原因 是 一 些 人 基于 经 验 、 直 觉 或 者 启发 式 
的 理由 尝试 使 用 修正 线性 单元 "， 在 分 类 基准 数据 集 上 取得 了 很 好 的 结果 ， 随 后 这 些 实践 传播 开 
了 。 理想 中 ,有 理论 能 指导 我 们 为 不 同 的 应 用 选择 适合 的 激活 函数 , 但 目前 距 此 还 很 遥远 。 对 于 
选择 更 好 的 激活 函数 实现 重大 提升 , 我 丝毫 不 会 感到 惊讶 , 我 还 期 待 未 来 的 几 十 年 里 , 更 有 力 的 























激活 函数 理论 将 被 提出 来 。 目 前 ， 我 们 仍然 只 能 依靠 薄弱 的 经 验 。 


6.2.2 ”扩展 训练 数据 








另 一 种 可 能 改进 结果 的 方法 是 通过 算法 扩展 训练 数据 。 扩展 训练 数据 的 一 个 简单 方法 是 对 训 














练 图 像 (向 上 、 向 下 、 向 左 、 向 右 ) 置换 一 个 像素 位 置 ， 这 可 以 通过 在 命令 提示 符 中 运行 程序 











expand_mnist.py 来 实现 : 


$ python expand mnist.py 




















0 一般 的 理由 是 max(0, z) 在 z 取 极 大 值 时 不 会 饱和 ， 不 像 sigmoid 神经 元 ， 而 这 有 

















助 ) 


修正 线性 


日 


元 持续 学 习 。 到 





目前 为 止 ， 这 一 辩解 还 不 错 ， 但 理由 不 够 详细 ， 相 当 于 “情况 就 是 如 此 ”。 注 意 第 2 章 中 讨论 过 的 饱和 间 题 。 








@) 见 随 书 代码 。 
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运行 该 程序 获取 50 000 幅 MNIST 训练 图 像 并 将 其 扩展 为 具有 250 000 幅 训练 图 像 的 训练 集 ， 
然后 可 以 使 用 这 些 图 像 来 训练 神经 网 络 。 我 们 将 使 用 和 前 面相 似 的 具有 修正 线性 单元 的 神经 网 络 。 
在 初始 的 试验 中 ,我 减少 了 训练 轮 数 一 一 这 讲 得 通 ， 因 为 训练 数据 是 之 前 的 5 倍 。 实 际 上 ,扩展 
数据 能 显著 减轻 过 拟 合 的 影响 。 因 此 , 在 做 了 一 些 试验 后 , 最 终 回 到 训练 60 轮 。 训练 如 下 所 示 : 











>>> expanded training data, , _ = network3.1oad data shared( 
"../data/mnist expanded.pkl.gz") 

>>> net = Network([ 
ConvPoolLayer(image shape=(mini batch size, 1, 28, 28), 

filter shape=(20，1，5，5)， 

poolsize=(2，2)， 








activation fn=ReLU)， 
ConvPoolLayer(image_shape=(mini_batch_size，20，12，12)， 
filter shape=(40，20，5，5)， 
poolsize=(2，2)， 





activation fn=ReLU)， 
FullyConnectedLayer(n_in=40*4*4，n_out=100，activation fn=ReLU)， 
SoftmaxLayer(n_in=100，n_out=10)]，mini_batch_size) 
>>> net.SGD(expanded training data, 60, mini batch size, 0.03, 
validation data, test data, lmbda=0.1) 








使 用 扩展 后 的 训练 数据 , 训练 准确 率 达 到 了 99.37%， 可见 这 个 微不足道 的 改变 明显 提高 了 分 
类 准确 率 。 实 际 上 ， 如 前 所 述 ， 这 种 通过 算法 扩展 数据 的 想法 可 以 更 进一步 。 早 期 的 一 些 相关 结 
果 有 : 2003 年 ，Patrice Simard 、Dave Steinkraus 和 John Platt" 使 用 一 个 神经 网 络 提升 了 对 MNIST 
图 像 分 类 问题 的 表现 ， 准 确 率 达 到 了 99.60%。 该 神经 网 络 和 我 们 的 神经 网 络 非常 相似 ， 使 用 两 
个 卷 积 - 池 化 层 , 跟 了 一 个 具有 100 个 隐藏 神经 元 的 全 连接 层 。 他 们 的 架构 在 细节 上 有 一 些 不 同 ， 
例如 他 们 没有 使 用 修正 线性 单元 ， 而 主要 通过 扩展 训练 数据 来 提升 性 能 。 他 们 通过 对 MNIST 训 
练 图像 进 行 旋转 、 位 移 和 扭曲 来 扩展 数据 ， 还 设计 了 一 个 “弹性 扭曲 ”流程 ， 以 此 模拟 人 写字 时 
手 部 肌肉 的 随机 拌 动 。 通 过 组 合 这 些 流程 显著 扩大 了 训练 数据 的 有 效 规模 ， 这 就 是 准确 率 达 到 
99.60% 的 原因 。 





















































问 题 
卷 积 层 的 思想 是 跨 图 像 而 行为 不 变 。 想 法 很 惊人 ， 然 而 ， 当 完成 所 有 给 入 数据 的 转换 后 ， 


神经 网 络 能 学 习 到 更 多 。 你 能 否 解释 为 什么 这 实际 上 很 合理 ? 





GD Patrice Simard, Dave Steinkraus, John Platt. Best Practices for Convolutional Neural Networks Applied to Visual Document 
Analysis, 2003. 
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6.2.3 ”插入 额 多 





的 全 连接 层 

















还 能 做 得 更 好 吗 ? 一 种 可 能 性 是 使 用 和 前 面 完全 相同 的 程序 , 但 是 扩大 全 连接 层 的 规模 。 我 
试 过 300 个 和 1000 个 神经 元 ， 结 果 分 别 为 99.46% 和 99.43%。 这 很 不 错 ， 但 对 比 前 面 的 结果 


(99.37% )， 还 算 不 上 明显 超越 。 





增加 一 个 额外 的 全 连接 层 会 怎样 ? 
藏 神经 元 的 全 连接 层 了 。 


>>> net = Network([ 
ConvPoolLayer(image_shape=(m 
filter shape=(2 
poolsize=(2, 2 








下 面 尝试 插入 一 个 全 连接 层 , 这 样 就 有 两 个 包含 100 个 隐 


ini batch size, 1, 28, 28), 


0, 1, 5, 5), 


了 


activation fn=ReLU), 


ConvPoolLayer(image_shape=(mi 
filter shape=(4 
poolsize=(2，2 








ni batch size，20，12，12)， 
03 205 92 0) 


了》 


activation fn=ReLU)， 





FullyConnectedLayer(n in=40*4 
FullyConnectedLayer(n in=100, 


SoftmaxLayer(n in=100, nN_out= 


*4, Nn out=100, activation fn=ReLU)， 
n_out=100，activation fn=ReLU)， 
10)], mini batch size) 


>>> net.SGD(expanded training data, 60, mini batch size, 0.03, 
validation data, test data, lmbda=0.1) 


测试 准确 率 达到 了 99.43%， 这 种 扩展 仍 没 有 明显 起 效 。 用 包含 300 个 和 1000 个 隐藏 神经 元 的 


全 连接 层 运行 类 似 的 试验 ， 结 果 分 别 是 




















99.48% 和 99.47%。 结 果 令 人 鼓舞 ， 但 仍 不 是 重大 的 胜利 。 


这 里 发 生 了 什么 ? 扩展 的 或 者 额外 的 全 连接 层 真 的 对 MNIST 图 像 分 类 问题 没有 带 助 吗 ? 或 
者 说 , 神经 网 络 能 做 得 更 好 , 但 在 以 错误 的 方式 学 习 ? 也 许 我 们 可 以 用 更 强大 的 正则 化 技术 来 抑 


制 过 拟 合 的 趋势 。 一 种 可 能 性 是 第 3 章 














介绍 的 Dropout 技术 ,其 基本 思想 是 在 训练 神经 网 络 时 随 





机 移 除 单独 的 激活 值 , 这 使 得 模型 更 容易 忽略 个 别 现象 , 因此 不 太 可 能 依赖 训练 数据 的 个 别 特征 。 
下 面 尝 试 对 最 终 的 全 连接 层 应 用 Dropout。 


>>> net = Network([ 
ConvPoolLayer(image_shape=(m 


ini batch size, 1, 28, 28), 


filter shape=(20, 1, 5, 5), 


poolsize=(2, 2 


了 


activation fn=ReLU) ， 


ConvPoolLayer(image_shape=(mi 
filter shape=(4 





poolsize=(2，2 


ni batch size，20，12，12)， 
03 20, 5» 3)3 


》 
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activation fn=ReLU)， 
FullyConnectedLayer( 
n in=40*4*4, n_out=1000,，activation fn=ReLU, p_dropout=0.5)， 
FullyConnectedLayer( 
n in=1000, Nn_out=1000, activation fn=ReLU, p_dropout=0.5)， 
SoftmaxLayer(n_in=1000, Nn_out=10, p_dropout=0.5)], 
mini batch size) 
>>> net.SGD(expanded training data, 40, mini batch size, 0.03, 
validation data, test data) 





使 用 它 , 准确 率 达 到 了 99.60%, 显著 超越 了 前 面 的 尝试 , 尤其 是 我 们 的 主要 基准 一 一 具有 100 
个 隐藏 神经 元 的 神经 网 络 ， 其 结果 为 99.37%。 





有 两 处 变化 值得 注意 。 
首先 ， 训 练 轮 数 减少 到 了 40: Dropout 减轻 了 过 拟 合 ， 所 以 神经 网 络 学 习 得 更 快 。 





其 次 ， 全 连接 隐藏 层 有 1000 个 神经 元 ,不 是 之 前 的 100 个 。 当 然 ， 在 训练 时 使 用 Dropout 
有 效 地 忽略 了 很 多 神经 元 ， 所 以 需要 一 些 扩充 。 实 际 上 ， 我 进行 过 用 300 个 和 1000 个 隐藏 神经 
元 的 试验 ， 用 1000 个 隐藏 神经 元 时 验证 准确 率 略 微 有 提高 。 























6.2.4 ”集成 神经 网 络 


进一步 提高 性 能 的 一 个 简单 方法 是 创建 几 个 神经 网 络 , 然后 让 它们 投票 决定 最 好 的 分 类 。 假 
设 使 用 上 述 方式 训练 了 5 个 神经 网 络 ， 每 个 的 准确 率 接近 99.60%。 也 许 这 些 神经 网 络 的 准确 率 
相近 , 但 很 可 能 由 于 不 同 的 随机 初始 化 出 现 不 同 的 错误 。 在 这 5 个 神经 网 络 中 进行 一 次 投票 来 选 
取 一 个 优 于 单个 神经 网 络 的 分 类 ， 似 乎 是 合理 的 。 




















进 


能 
类 的 


这 种 方法 好 得 似乎 不 真切 , 但 集成 是 神经 网 络 和 其 他 机 器 学 习 技术 的 惯用 技巧 。 它 确实 
一 步 改 进 结果 : 最 终 的 准确 率 达 到 了 99.67%。 换 言 之 ， 对 于 10 000 幅 测 试图 像 ， 未 正确 分 
仅 有 33 幅 。 








剩余 的 测试 集中 的 错误 如 图 6-15 所 示 。 右 上 角 的 标签 是 对 MNIST 数据 的 正确 分 类 ， 而 右 下 
角 的 标签 是 集成 神经 网 络 的 输出 。 
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图 。6-15 








这 些 图 像 值得 仔细 研究 。 开 头 两 个 数字 ， 一 个 “6” 和 一 个 “5”， 是 集成 神经 网 络 模型 犯 的 
实在 错误 ， 然 而 也 可 以 理解 ， 因 为 人 类 也 会 犯 。 那 个 “6” 确 实 看 上 去 更 像 “0”， 而 那个 “5” 看 
上 去 更 像 “3”。 第 3 幅 图 像 ， 据 称 是 一 个 “8”， 在 我 看 来 更 像 “9”。 所 以 这 里 我 支持 集成 神经 网 
络 ， 我 认为 它 比 最 初 书写 这 些 数 字 的 人 做 得 更 好 。 不 过 ,第 4 幅 图 像 中 的 那个 “6” 看 上 去 确实 
是 神经 网 络 分 类 错 了 。 


在 大 多 数 情况 下 ,神经 网 络 的 选择 看 上 去 是 合理 的 ， 而 在 某 些 情况 下 ， 比 最 初 写 这 些 数字 的 
人 做 得 更 好 。 总 体 而 言 ， 神 经 网 络 的 性 能 卓越 ， 特 别 是 它们 正确 分 类 了 9967 幅 图 像 ， 这 里 没有 
全 部 展示 。 相 较 而 言 ， 几 处 明显 的 错误 似乎 是 可 以 理解 的 ,甚至 细心 的 人 偶尔 也 会 犯错 ， 只 有 非 
常 细心 和 有 条 理 的 人 才能 做 得 更 好 ， 而 我 们 的 神经 网 络 正在 接近 人 类 的 水 平 。 



































@ 为 什么 只 对 全 连接 层 应 用 Dropout 


如 果 和 仔细 看 上 面 的 代码 ,就 会 发 现 只 有 神经 网 络 的 全 连接 层 应 用 了 Dropout, 而 卷 积 层 没有 。 
原则 上 可 以 对 卷 积 层 应 用 类 似 的 程序 ,但 实际 上 没有 必要 : 卷 积 层 先 天 对 过 拟 合 有 很 强 的 抵抗 力 ， 
原因 是 共享 权重 意味 着 强制 卷 积 滤波 器 从 整个 图 像 中 学 习 , 这 使 得 它们 不 太 可 能 选择 训练 数据 中 
的 局 部 特征 ， 因 此 不 太 需 要 应 用 其 他 正则 化 技术 ， 例 如 Dropout。 














@ 更 进一步 
对 于 MNIST 图 像 分 类 问题 ， 仍 有 可 能 改进 分 类 结果 。Rodrigo Benenson 制作 了 一 个 信息 汇总 6 
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页 面 "， 展 示 了 这 几 年 的 进展 ， 并 提供 了 论文 的 链接 。 其 中 许多 论文 探讨 了 深度 卷 积 神经 网 络 ， 与 
前 面 介 绍 的 神经 网 络 相似 。 如 果 深 入 挖掘 这 些 论文 ， 你 会 发 现 许多 有 趣 的 技术 ， 也 可 以 进行 尝试 。 
对 于 此 , 明智 的 做 法 是 从 简单 的 能 快速 训练 的 神经 网 络 开始 , 这 将 有 助 于 你 更 快 地 了 解 所 发 生 的 事 。 











这 里 不 会 谈 及 近期 研究 成 果 的 大 部 分 内 容 ,但 2010 年 Dan Claudiu Ciresan 、Ueli Meier 、Luca 
Maria Gambardella 和 Jirgen Schmidhuber 发 表 的 一 篇 论文 ?值得 一 提 。 我 喜欢 这 篇 论文 ， 因 为 它 非 
常 简单 , 所 述 网 络 是 一 个 多 层 神经 网 络 , 仅 使 用 全 连接 层 ( 没有 卷 积 层 ), 隐藏 层 分 别 包含 2500、 
2000、1500、1000 和 500 个 神经 元 。 他 们 采用 和 Simard 等 人 相似 的 想法 来 扩展 训练 数据 。 除 此 
之 外 ， 再 无 其 他 技巧 ， 所 以 这 是 一 个 非常 简单 的 神经 网 络 。 这 样 的 神经 网 络 ， 如 果 在 20 世纪 80 
年 代 有 足够 的 耐心 进行 训练 (如果 当时 已 有 MNIST 数据 集 ), 假设 那 时 有 足够 的 计算 能 力 ， 分 类 
准确 率 能 达到 99.65%, 和 我 们 的 结果 非常 相近 。 其 关键 是 使 用 一 个 非常 大 、 非常 深 的 神经 网 络 ， 
并 且 使 用 一 个 GPU 来 加 速 训练 。 他 们 训练 了 很 多 轮 , 并 通过 长 时 间 训 练 来 逐渐 将 学 习 率 从 107 减 
小 到 10”。 如 有 兴趣 ， 可 以 尝试 用 相似 的 架构 来 验证 他 们 的 结果 。 




































































e@ 为 什么 能 够 训练 

第 5 章 介 绍 了 多 层 深 度 神经 网 络 中 的 基本 障碍 , 其 中 梯度 往往 很 不 稳定 : 当 从 输出 层 移动 到 
前 面 的 层 时 ， 梯 度 趋 于 消失 ( 梯度 消失 问题 ) 或 爆炸 ( 梯度 爆炸 问题 )。 因 为 梯度 是 训练 所 用 的 
信号 ， 所 以 会 出 现 问题 。 

















那么 如 何 避 免 这 些 问 题 呢 ? 








当然 不 能 回避 这 些 问 题 ， 而 是 采取 措施 ， 继 续 前 进 。 其 中 的 措施 包括 : (1) 使 用 卷 积 层 极 大 
地 减少 这 些 层 中 参数 的 数量 ， 简 化 学 习 问 题 ; (2) 使 用 更 多 强大 的 正则 化 技术 (尤其 是 Dropout 
和 卷 积 层 ) 来 减轻 过 拟 合 ， 和 否则 在 更 复杂 的 神经 网 络 中 会 更 成 问题 ; (3) 使 用 修正 线性 单元 而 不 
是 sigmoid 神经 元 来 加 速 训 练 ， 根 据 经 验 , 通常 是 3 ~5$ 倍 ; (4) 使 用 GPU 并 长 时 间 训 练 。 最 后 的 
试验 训练 了 40 轮 , 使 用 的 数据 集 是 原始 MNIST 训练 数据 的 5 倍 。 前面 主要 用 原始 训练 数据 训练 
30 轮 。 结 合 (3) 和 (4)， 似 乎 训练 时 长 是 之 前 的 30 倍 左右 。 



















































































你 的 反应 可 能 是 :“ 什 么 ， 为 了 训练 深度 神经 网 络 要 做 这 些 事 情 ? 为 什么 要 小 题 大 做 ? ” 


当然 ， 我 们 也 使 用 了 其 他 策略 : 采用 大 的 数据 集 ( 为 了 避免 过 拟 合 ); 使 用 正确 的 代价 函数 
(为 了 避免 学 习 减 速 ); 使 用 好 的 权重 初始 化 (也 是 为 了 避免 因为 神经 元 饱和 引起 的 学 习 减 速 ); 



































请 搜索 “What is the class of this image”。 
© Dan Claudiu Ciresan, Ueli Meier, Luca Maria Gambardella, et al. Deep, Big, Simple Neural Nets Excel on Handwritten 
Digit Recognition, 2010. 


6.3 ” 卷 积 神经 网 络 的 代码 195 





通过 算法 扩展 训练 数据 。 前 面 讨论 过 这 些 方 法 ， 本 章 大 都 适用 ， 而 且 不 需要 大 多 注释 。 





























由 此 可 见 , 这 些 真 的 是 相当 简单 的 策略 ,在 组 合 使 用 时 却 功能 强大 。 入 门 深度 学 习 变 得 非常 
容易 ! 


@ 这 些 神经 网 络 有 多 深 


若 把 卷 积 - 池 化 层 算 作 一 层 , 那 最 终 的 架构 有 4 个 隐藏 层 ,这 样 的 网 络 能 算是 深度 神经 网 络 吗 ? 
当然 ,4 个 隐藏 层 远 远 超过 了 前 面 介绍 的 浅 层 神经 网 络 ， 那 些 神 经 网 络 大 都 只 有 1 个 隐藏 层 ， 偶 尔 
有 2 个 隐藏 层 。 另 外 ，2015 年 ， 使 用 先进 技术 的 深度 神经 网 络 可 能 有 几 十 个 隐藏 层 。 我 偶尔 听 到 有 
人 持 “追求 更 深 ” 的 态度 , 认为 如 果 没 有 在 隐藏 层 数目 方面 与 人 攀比 , 就 称 不 上 是 在 研究 深度 学 习 。 
我 不 赞同 这 种 看 法 ,部 分 原因 是 它 使 得 深度 学 习 的 定义 流 于 结果 了 。 在 深度 学 习 中 , 实际 的 突破 是 
发 现 超越 浅 层 神经 网 络 是 切实 可 行 的 ， 拥 有 一 两 个 隐藏 层 的 浅 层 神经 网 络 直到 2005 年 左右 仍 主导 
着 这 一 领域 。 这 确实 是 重大 的 突破 , 它 开启 了 更 多 对 有 特殊 意义 的 模型 的 探索 。 但 除 此 之 外 , 层 的 
数目 并 不 是 关键 所 在 。 具体 而 言 , 使 用 深度 神经 网 络 旨 在 实现 其 他 目标 , 例如 更 高 的 分 类 准确 率 。 

































































@ 关于 这 一 流程 的 评述 

前 面 从 单个 隐藏 层 的 浅 层 神 经 网 络 成 功 转换 到 了 多 层 卷 积 神经 网 络 , 这 一 切 似乎 很 容易 , 我 
们 做 了 修改 ， 并 在 大 多 数 情况 下 实现 了 提升 。 如 果 你 开始 尝试 ， 会 发 现 事情 不 会 总 是 那么 顺利 。 
原因 是 前 面 的 叙述 去 除了 一 些 细节 ， 省 略 了 许多 试验 ， 包 括 许多 失败 的 试验 ， 旨 在 呈现 基本 思想 ， 
其 缺点 是 讨论 不 够 完整 。 训 练 得 到 一 个 好 的 、 有 效 的 深度 神经 网 络 会 涉及 大 量 试 错 , 经 常会 遇 到 
挫折 , 在 实践 中 往往 需要 进行 相当 多 的 试验 。 为 了 加 快 这 一 进程 , 第 3 章 关 于 如 何 选择 神经 网 络 
的 超 参 数 的 讨论 以 及 扩展 阅读 的 建议 会 有 所 帮助 。 


6.3 ” 卷 积 神经 网 络 的 代码 


下 面 看 看 卷 积 神经 网 络 network3.py 的 代码 。 整 体 而 言 ， 程 序 结构 类 似 于 network2.py， 不 过 
细节 上 有 差异 ， 因 为 使 用 了 Theano。 首 先 看 看 FullyConnectedLayer 类 ， 这 类 似 于 之 前 讨论 的 那 
些 神 经 网 络 层 。 代 码 " 如 下 所 示 : 












































J 一 些 读 者 注意 到 这 段 代 码 的 初始 化 self.w 一 行使 用 了 scale=np.sqrt(1.0/n_out)， 而 第 3 章 给 出 了 更 好 的 初始 化 建 
议 : scale=np.sqrt(1.0/n_in)。 这 是 一 个 问题 , 理应 修正 代码 , 但 因为 后 来 我 转向 了 其 他 项 目 , 且 该 问题 影响 不 大 ， 
所 以 就 维持 原样 了 。 
译 者 附注 : 这 里 其 实 存在 3 种 选择 : (1) 模式 1 常 称 为 fan in,n 取 输 入 层 的 神经 元 数目 ; (2) 模式 2 常 称 为 fan_out， 
n 取 输出 层 的 神经 元 数目 ; (3) 模式 3 常 称 为 fan avg,，n 取 输入 层 和 输出 层 神经 元 数目 的 平均 值 。 
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class FullyConnectedLayer(object): 


def init (self, n in, n out, activation fn=sigmoid, p_dropout=0.0) 





self.n in = n in 


self.n out = n out 


self.activation fn = activation fn 
self.p dropout = p_dropout 

# 初始 化 权重 和 偏 置 

lf.w = theano.shared( 


np.asarray 





Sel 


np.random.normal( 
loc=0.0, scale=np.sqrt(1.0/n out), size=(n in, n_out) 


type= 
'W' ,borrow= 


d 
name= 
self.b = 
np.asarray 


theano.config.floatX), 
[rue) 





theano. shared( 
np.random.normal(loc=0.0, scale=1.0, size=(n out,) 
dtype=theano.config.floatX)， 
name="'b', borrow=True) 


self.w, self.b 





self.params = 


def set inpt(self, inpt, inpt dropout, mini batch size): 


self.inpt = inpt.reshape((mini batch size, self.n in)) 
self.output = self.activation fn( 
(1-self.p dropout)*T.dot(self.inpt, self.w) + self.b) 


.y_out = T.argmax(self. 





self output, axis=1) 


self.inpt dropout = dropout layer( 


inpt dropout.reshape( (min 














self.output dropout = self.activation fn( 


T.do t, self.w) + self.b) 





t(self.inpt dropou 


def accuracy(self, y): 


the accuracy for the mini-batch." 





"Return 
return T.mean(T.eq(y, self.y_out)) 


)， 


)， 


i batch size，self.n in)), self.p dropout) 





_init 方法 中 的 大 部 分 内 容 简单 易 懂 ， 这 里 稍 作 解 释 。 我 们 根据 高 





重 和 偏 置 ， 代 码 中 对 应 这 个 操作 的 一 行 可 能 看 起 来 很 复杂 ,但 其 


一 一 

















Theano 中 所 谓 的 共享 变量 


感 兴 趣 ， 可 以 查看 Theano 文档 。 这 种 初始 化 方法 也 是 专 为 sigmoid 激活 函 
初始 化 权重 和 偏 置 时 会 根据 不 同 的 激活 函数 进行 调整 


JIE., 


比如 tanh 也 数 和 修正 线 愧 


中 ， 以 确保 可 以 在 GPU 中 人 处 理 这 些 变量 。 对 此 不 做 更 深 的 解释 ， 如 





日 





斯 分 布 随 机 初始 化 了 权 
实 只 是 把 权重 和 偏 置 加 载 到 了 


日 


信 


数 设计 的 。 理 想 情况 下 ， 





LE 现 


K| 





问题 中 会 对 此 进行 讨论 。 初 始 化 方法 _init _ 以 self.params = [self. 
将 该 层 所 有 需要 学 习 的 参数 都 归 到 一 起 了 。 后 面 ，Network.50D 方法 会 通 
经 网 络 实例 中 什么 变量 能 够 学 习 。 
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过 params 
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属性 来 确定 神 
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set_inpt 方法 用 于 设置 该 层 的 输入 ,并 计算 相应 的 输出 。 之 所 以 使 用 inpt 而 非 input， 是 因 
为 在 Python 中 input 是 一 个 内 置 函 数 。 如 果 将 两 者 混 消 , 必然 会 导致 不 可 预测 的 行为 和 难以 诊断 
的 问题 。 注 意 ， 实 际 上 我 们 用 两 种 方式 设置 输入 : self.inpt 和 self.inpt_dropout。 在 训练 时 可 
能 要 使 用 Dropout, 在 这 种 情况 下 , 就 需要 设置 对 应 丢弃 的 概率 self.p_dropout。 这 就 是 set_inpt 
方法 的 dropout_layer 的 行为 。 因 此 self.inpt dropout 和 self.output dropout 在 训练 中 使 用 ， 
而 self.inpt 和 self.output 用 于 其 他 任务 ， 比 如 评估 验证 集 和 测试 集 上 模型 的 准确 率 。 


























ConvPoolLayer 类 和 SoftmaxLayer 类 的 定义 与 FullyConnectedLayer 的 定义 差不多 , 因此 下 面 
不 再 给 出 代码 。 如 果 你 感 兴趣 ， 可 以 参考 稍 后 给 出 的 network3.py 的 代码 。 














尽管 如 此 ,还 是 要 指出 一 些 重要 的 细微 差别 。 较 为 明显 的 是 , 在 ConvPoolLayer 和 SoftmaxLayer 
中 ， 我 们 相应 地 采用 了 合适 的 输出 激活 值 计算 方式 ， 而 Theano 内 置 的 操作 能 计算 卷 积 、 最 大 池 
化 和 softmax 函数 。 





有 的 不 大 明显 ， 在 引入 softmax 层 时 ， 我 们 没有 讨论 如 何 初 始 化 权重 和 偏 置 。 前 面 讨论 过 对 
sigmoid 层 应 当 使 用 恰当 的 参数 化 的 高 斯 分 布 来 初始 化 权重 ， 但 是 这 个 启发 式 的 论断 是 针对 
sigmoid 神经 元 的 (做 一 些 调整 可 以 用 于 tanh 神经 元 ) ， 并 没有 特殊 原因 说 该 论断 对 softmax 层 也 
适用 , 也 就 没有 先 验 理由 应 用 这 样 的 初始 化 。 与 其 使 用 之 前 的 方法 进行 初始 化 , 不 如 在 这 里 将 所 
有 权重 值 和 偏 置 设 为 0。 这 是 一 个 权宜 之 计 ， 但 在 实践 中 效果 不 错 。 


















































好 了 ， 关 于 层 的 所 有 类 已 经 介绍 完毕 。 那 么 Network 类 是 怎样 的 呢 ? 下 面 看 看 _init 方法 : 
class Network(object): 


def init (self, layers, mini batch size): 

”接收 列表 layers， 它 描述 了 网 络 架构 和 训练 时 用 于 进行 随机 梯度 下 降 的 值 mini_batch_size。""" 
self.layers = layers 

self.mini batch size = mini batch size 

self.params = [param for layer in self.layers for param in layer.params] 

self.x = T.matrix("x") 

self.y = T.ivector("y") 

init layer = self.1layers[0] 








init layer.set inpt(self.x, self.x, self.mini batch size) 
for j in xrange(1, len(self.1ayers)): 
prev_layer, layer = self.layers[j-1], self.layers[j] 
layer.set inpt 
prev_layer.output, prev layer.output dropout, self.mini batch size) 








self.output = self.layers[-1].output 





self.output dropout = self.layers[-1].output dropout 
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这 段 代码 整体 比较 简单 。self.params = [param for layer in ...] 此 行 代 码 把 每 层 的 参数 绑 
定 到 一 个 列表 中 。Network.SGD 方法 会 使 用 self.params 来 确定 Network 中 哪些 变量 能 够 学 习 。 而 
self.x = T.matrix("x") 和 self.y = T.ivector("y") 定 义 了 Theano 符号 变量 x 和 y， 用 于 分 别 表 
示 神 经 网 络 的 输入 和 目标 输出 。 





这 里 不 讲解 Theano 的 用 法 ， 所 以 不 会 深入 讨论 这 些 变量 的 含义 。 笼 统 地 说 ， 它 们 代表 了 数 
学 变量 , 而 非 显 式 的 值 。 可 以 对 这 些 变量 执行 常规 操作 : 加 减 乘除 、 应 用 函数 等 。 实 际 上 ,Theano 
提供 了 很 多 对 符号 变量 进行 操作 的 方法 ， 比 如 卷 积 、 最 大 池 化 等 , 但 更 重要 的 是 能 够 使 用 反 向 传 
播 算法 的 一 种 通用 形式 进行 快速 符号 微分 运算 。 这 在 对 若干 神经 网 络 架构 的 变 体 应 用 随机 梯度 下 
降 算法 方面 特别 有 效 。 接 下 来 的 几 行 代码 定义 了 神经 网 络 的 符号 输出 。 我们 通过 下 面 这 行 代码 设 
置 初始 层 的 输入 : 












































init layer.set inpt(self.x, self.x, self.mini batch size) 




















请 注意 ,输入 是 以 每 次 一 个 小 批量 的 方式 进行 的 , 这 就 是 指定 小 批量 大 小 的 原因 。 还 需要 注 
意 ， 输 入 self.x 传递 了 两 次 ， 这 是 因为 可 能 会 以 两 种 方式 ( 有 无 Dropout ) 使 用 神经 网 络 。for 
循环 将 符号 变量 self.x 通过 Network 的 层 进行 前 向 传播 ， 这 样 可 以 定义 最 终 的 输出 output 和 
属性 ， 这 些 都 是 Network 输出 的 符号 表示 。 


了 解 了 Network 是 如 何 初始 化 的 ,下 面 看 看 它 如 何 使 用 SGD 方法 进行 训练 .代码 看 起 来 很 长 ， 
其 实 结构 相当 简单 ， 后 面 会 解释 。 


def SGD(self, training data, epochs, mini batch size, eta, 
validation data, test data, lmbda=0.0): 

"使 用 小 批量 随机 梯度 下 降 算 法 训练 神经 网 络 。”""" 
training x, training y = training data 
validation x, validation y = validation data 
test x, test y = test data 























全 


output_ dropout 自 





























# 计算 训练 集 、 验 证 集 和 测试 集 的 小 批量 数量 

num training batches = size(training data)/mini batch size 

num validation batches = size(validation data)/mini batch size 
num test batches = size(test data)/mini batch size 





# 定义 〈 正 则 化 的 ) 代价 函数 、 符 号 梯度 和 更 新 
12 norm squared = sum([(layer.w**2).sum() for layer in self.1ayers]) 
cost = self.layers[-1].cost(self)+\ 
0.5*lmbda*12_norm squared/num training batches 
grads = T.grad(cost, self.params) 
updates = [(param, param-eta*grad) 
for param, grad in zip(self.params, grads)] 








6.3 ” 卷 积 神经 网 络 的 代码 


199 





# 定义 函数 来 训练 小 批量 ， 并 计算 在 验证 集 和 测试 集 的 小 批量 上 的 准确 率 
i = T.lscalar() # mini-batch 索引 


train mb = theano.function( 


[i], cost, updates=updates, 


givens={ 
self.x: 


training x[i*self.mini batch size: (i+1)*self.mini batch size], 


self.y: 








training y[i*self.mini batch size: (i+1)*self.mini batch size] 


]) 


validate mb accuracy = theano 


givens={ 
self.x: 


.function( 
[i], self.layers[-1].accuracy(self.y 


validation x[i*self.mini batch size: (i+1)*self.mini batch size], 





self.y: 


validation y[i*self.mini batch size: (i+1)*self.mini batch size] 


]) 


test mb accuracy = theano.function( 
[i], self.layers[-1].accuracy(self.y 


givens={ 
self.x: 
test 


x 


i*self.mini ba 
self.y: 
test yli*self.mini ba 


]) 


tch size: (i+1)*self.mini batch size]， 





tch size: (i+1)*self.mini batch size] 


self.test mb predictions = theano.function( 


[i], self.layers[-1].y_out 











givens={ 

self.x: 

test x[i*self.mini ba 
]) 


# 实际 进行 训练 


~ 





tch size: (i+1)*self.mini batch sizel] 


best validation accuracy = 0.0 


for epoch in xrange(epochs): 


for minibatch index in xrange(num training batches): 
iteration = num training batches*epoch+minibatch index 


if iteration 


print("Training mini-batch number {0}".format(iteration)) 


cost ij = train mb(minibatch index) 





if (iteration+1) 


validation accuracy = np.mean( 


print("Epoch {0}: 





[validate mb accuracy(j) for j in xrange(num validation batches)]) 


validation accuracy {1:.2 


epoch, validation accuracy)) 


if validation accuracy >= best validation accuracy: 








print("This is the best validation accuracy to date.") 
best validation accuracy = validation accuracy 
best iteration = iteration 
if test data: 
test accuracy = np.mean( 
[test mb accuracy(j) for j in xrange(num test batches)]) 
print('The corresponding test accuracy is {0:.2 
test accuracy)) 
print("Finished training network.") 
print("Best validation accuracy of {0:.2 
best validation accuracy, best iteration)) 
print("Corresponding test accuracy of {0:.2 


前 面 几 行 很 直 白 ,将 数据 集 分 成 x 和 yy 两 部 分 并 计算 每 个 数据 集中 小 批量 的 数量 。 接 下 来 
的 几 行 更 有 意思 ， 也 体现 了 Theano 的 特性 ， 下 面 详细 分 析 。 


# 定义 〈 正 则 化 的 ) 代价 函数 、 符 号 梯度 和 更 新 
12_norm_squared = sum([(layer.w**2).sum() for layer in self.1ayers]) 
cost = self.layers[-1].cost(self)+\ 
0.5*lmbda*12 _ norm squared/num training batches 
grads = T.grad(cost, self.params) 
updates = [(param, param-eta*grad) 
for param, grad in zip(self.params, grads)] 











这 几 行 用 符号 表示 出 了 正则 化 的 对 数 似 然 代 价 函 数 , 在 梯度 函数 中 计算 了 对 应 的 导数 , 以 及 
对 应 参数 的 更 新 方式 。 使 用 Theano, 短 短 几 行 即 可 实现 。 唯 一 隐藏 的 是 计算 cost 包含 了 对 输出 层 
cost 方法 的 调用 ， 该 代码 在 network3.py 中 的 别处 ， 但 也 很 简短 。 定 义 好 了 这 些 ， 下 面 就 是 定义 
train_mb 函数 ， 该 Theano 符号 函数 在 给 定 mini-batch 索引 的 情况 下 使 用 updates 来 更 新 Network 
参数 。 类 似 地 ，validate mb_accuracy 和 test mb_accuracy 分 别 计算 验证 集 和 测试 集 任意 给 定 小 
批量 上 Network 的 准确 率 。 通 过 对 这 些 函 数 进行 平均 , 可 以 计算 整个 验证 集 和 测试 集 上 的 准确 率 。 


SGD 方法 的 剩余 部 分 简单 易 懂 一 一 迭代 训练 ， 重 复 使 用 训练 数据 的 小 批量 来 训练 神经 网 络 ， 
计算 验证 集 和 测试 集 上 的 准确 率 。 


好 了 ， 了 解 完 network3.py 代码 中 的 重要 部 分 ， 接 下 来 看 看 整个 程序 。 不 需要 仔细 阅读 这 些 
代码 ,但 应 该 浏览 ， 如 果 遇 到 感 兴趣 的 代码 段 ， 不 妨 深入 探究 。 理 解 代 码 的 最 佳 方法 就 是 通过 修 
改 代码 ,增加 额外 的 特征 或 者 重新 组 织 那 些 有 简化 空间 的 代码 。 列 出 代码 之 后 ,我 对 初学 者 给 出 
了 一 些 建议 。 代 码 * 如 下 所 示 。 

























































































中 在 GPU 上 使 用 Theano 可 能 会 有 点 难度 , 例如 从 GPU 中 拉 取 数据 时 容易 出 现 错误 ,可 能 会 让 运行 变 得 相当 慢 , 我 
已 经 尽力 避免 出 现 这 种 情况 。 据 称 仔细 优化 Theano 配置 可 加 速 代 码 运行 ， 更 多 细节 见 Theano 文档 。 
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network3.py 


这 个 基于 Theano 的 程序 用 于 训练 和 运行 简单 的 神经 网 络 。 


它 支持 不 同类 型 (全 连接 、 卷 积 、 最 大 池 化 、softmax) 的 层 和 激活 函数 (sigmoid、tanh 和 修正 线性 单元 ， 添 加 
其 他 类 型 也 很 容易 )。 


在 CPU 上 运行 时 ， 该 程序 比 network.py 和 network2.py 快 很 多 ， 而 且 不 同 于 network.py 和 network2.py， 它 也 
可 以 在 GPU 上 运行 ， 这 样 运行 会 更 快 。 


因为 代码 是 基于 Theano 的 , 所 以 与 network.py 和 network2.py 差别 很 大 , 但 这 里 尽 可 能 与 前 面 的 程序 保持 一 致 ， 
其 中 API 类似 于 network2.py。 注 意 ， 这 里 着 重 于 让 代码 简单 易 读 且 易 于 修改 ， 并 没有 进行 优化 ， 略 去 了 不 少 可 取 
的 特性 。 


这 上 段 程序 借鉴 了 Theano 文档 中 关于 卷 积 神经 网 络 的 想法 、Misha Denil 对 Dropout 的 实现 ， 以 及 Chris 01ah 提出 
的 概念 。 





该 程序 是 针对 Theano 0.6 和 0.7 编写 的 ， 若 使 用 其 最 新 版 本 ， 需 要 做 些 修改 。 


提 ### 库 

# 标准 库 
import cpPickle 
import gzip 


# 第 三 方 库 

import numpy as np 

import theano 

import theano.tensor as T 

from theano.tensor.nnet import conv 

from theano.tensor.nnet import softmax 

from theano.tensor import shared randomstreams 
from theano.tensor.signal import downsample 


# 神经 元 激活 函数 

def linear(z): return z 

def ReLU(z): return T.maximum(0.0，z) 
from theano.tensor.nnet import sigmoid 
from theano.tensor import tanh 


#### 常量 
GPU = True 
if GPU: 





202 第 6 章 深度 学 习 





print "Trying to run under a GPU. If this is not desired, then modify "+\ 
"network3.py\nto set the CPU flag to False." 

try: theano.config.device = 'gpu’ 

except: pass # it's already set 

theano.config.floatX = 'float32" 

else: 

print "Running with a CPU. If this is not desired, then the modify "+\ 

"network3.py to set\nthe GPU flag to True." 





村 # 加 载 MNIST 数据 
def load data shared(filename="../data/mnist.pkl.gz"): 
f = gzip.open(filename, 'rb') 
training data, validation data, test data = CPickle.1oad(f) 
f.close() 
def shared(data): 
""" 将 数据 放 入 共享 变量 ， 这 使 得 Theano 可 以 将 数据 复制 到 GPU ( 若 有 )。""" 
shared x = theano.shared( 





np.asarray(data[0], dtype=theano.config.floatX), borrow=True) 





shared y = theano.shared( 
np.asarray(data[1], dtype=theano.config.floatX), borrow=True) 
return shared x, T.cast(shared y, "int32") 
return [shared(training data), shared(validation data), shared(test data)] 


拉 ## 构造 和 训练 神经 网 络 的 主要 的 类 
class Network(object): 





def init (self, layers, mini batch size): 
""" 接 收 列表 1ayers, 它 描 述 了 神经 网 络 架构 和 训练 时 用 于 进行 随机 梯度 下 降 的 值 mini_ batch_size。""" 
self.layers = layers 





self.mini batch size = mini batch size 

self.params = [param for layer in self.layers for param in layer.params] 
self.x = T.matrix("x") 

self.y = T.ivector("y") 

init layer = self.1layers[0] 








init layer.set inpt(self.x, self.x, self.mini batch size) 
for j in xrange(1, len(self.1ayers)): 
prev_layer, layer = self.layers[j-1], self.layers[j] 
layer.set inpt( 
prev_layer.output, prev layer.output dropout, self.mini batch size) 





self.output = self.layers[-1].output 
self.output dropout = self.layers[-1].output dropout 


def SGD(self, training data, epochs, mini batch size, eta, 
validation data, test data, lmbda=0.0): 
""" 使 用 小 批量 随机 梯度 下 降 算 法 训练 神经 网 络 。""" 
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training x, training y = training data 


validation x, validation y = validation data 


test x, test y = test da 





[a 


# 计算 训练 集 、 验 证 集 和 测试 集 的 小 批量 数量 


num trainin 


num validati 


num test ba 


# 定义 (正则 化 的 ) 代价 函 


12_norm squ 


cost = self. 


0.5* 
grads = T.g 
updates = [ 


g_batches = si 


on_batches = 
tches = size 


ared = Sum([ 
layers[-1].c 





rad(cost, se 





param, param 
for param, gr 


mbda*12_norm_ 


ze(training data)/mini batch size 
size(validation data)/mini batch size 
test data)/mini batch size 


数 、 符 号 梯度 和 更 新 

layer.w**2).sum() for layer in self.1ayers]) 
ost(self)+\ 

squared/num training batches 





f.params) 


-eta*grad) 
ad in zip(self.params, grads)] 


# 定义 函数 来 训练 小 批量 ， 并 计算 在 验证 集 和 测试 集 的 小 批量 上 的 准确 率 


i = T.1scal 
train mb = 
[El]5:.c6 
givens= 


self. 
trai 


sel 


trai 


}) 


validate mb_ 


[i], se 
givens= 


self.x: 


val 


self.y: 
vali 


}) 
test mb acc 

[i], se 

givens= 


self.x: 
test 
self.y: 


tes 


}) 
self.test m 
[i], se 





ar() # mini-b 
theano. functi 
st, updates=u 
{ 

Xe 

ning x[i 
Fy 

ning y[i 


accuracy = t 
f.layers[-1] 


idation x[i*s 
dation yl[i*s 


uracy = thean 


上 


f.1ayeTs [ - 


{ 


x[i*self. 


t yli*self. 


3 


b_predictions 














f.layers[|-1 


atch 索引 
on( 
pdates， 


*self.mini batch size: (i+1)*self.mini batch size]， 


*self.mini batch size: (i+1)*self.mini batch size] 


heano. function( 

.accuracy(self.y), 

elf.mini batch size: (i+1)*self.mini batch size]， 
elf.mini batch size: (i+1)*self.mini batch size] 


0.function( 
.accuracy(self.y), 


ini batch size: (i+1)*self.mini batch size]， 


ini batch size: (i+1)*self.mini batch size] 


= theano.function( 
.y_out, 








test x[i*self.mini batch size: (i+1)*self.mini batch size] 


# 实际 进行 训练 
best validation accuracy = 0.0 
for epoch in xrange(epochs): 
for minibatch index in xrange(num training batches): 





iteration = num training batches*epoch+minibatch index 
if iteration % 1000 == 
print("Training mini-batch number {0}".format(iteration)) 





Pi 


cost ij = train mb(minibatch index) 


if (iteration+1) % num training batches == 





validation accuracy = np.mean( 
[validate mb accuracy(j) for j in xrange(num validation batches)]) 
print("Epoch {0}: validation accuracy {1:.2%}".format( 
epoch, validation accuracy)) 
if validation accuracy >= best validation accuracy: 
print("This is the best validation accuracy to date.") 
best validation accuracy = validation accuracy 
best iteration = iteration 
if test data: 
test accuracy = np.mean( 
[test mb accuracy(j) for j in xrange(num test batches)]) 
print('The corresponding test accuracy is {0:.2%}'.format( 
test accuracy)) 
print("Finished training network.") 
print("Best validation accuracy of {0:.2%} obtained at iteration {1}".format( 
best validation accuracy, best iteration)) 
print("Corresponding test accuracy of {0:.2%}".format(test accuracy)) 


#### 定义 层 类 型 


class ConvPoolLayer(object): 
""" 用 于 组 合 卷 积 层 和 最 大 池 化 层 。 更 复杂 的 实现 会 分 开 这 两 者 ， 但 这 里 为 的 是 让 代码 更 简单 易 读 ， 所 以 会 将 
它们 组 合 起 来 使 用 以 简化 代码 。""" 
def init (self, filter shape, image shape, poolsize=(2, 2), 
activation fn=sigmoid): 
ilter shape 是 长 度 为 4 的 元 组 ， 其 项 是 过 滤器 的 数目 、 输 入 特征 映射 的 数目 、 过 滤器 高 度 和 宽度 。 
image_shape 是 长 度 为 4 的 元 组 ,其 项 为 小 批量 大 小 、 输 入 特征 映射 的 数目 、 图 像 高 度 和 宽度 。poolsize 
是 长 度 为 2 的 元 组 ， 其 项 是 池 大 小 y 和 X。""" 
self.filter shape = filter shape 


nn 








self.image shape = image shape 
self.poolsize = poolsize 





self.activation fn=activation fn 
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# 初始 化 权重 和 偏 置 
n out = (filter shape[O]*np.prod(filter shape[2:])/np.prod(poolsize)) 
self.w = theano.shared( 
np.asarray 
np.random.normal(loc=0, scale=np.sqrt(1.0/n out), size=filter shape), 
dtype=theano.config.floatX)， 
borrow=True) 
self.b = theano.shared( 
np.asarray 





np.random.normal(loc=0, scale=1.0, size=(filter shape[0],)), 





dtype=theano.config.floatX)， 
borrow=True 
self.params = [self.w, self.b] 


def set inpt(self, inpt, inpt dropout, mini batch size): 





self.inpt = inpt.reshape(self.image shape) 
conv_out = conv.conv2d( 





input=self.inpt, filters=self.w, filter shape=self.filter shape, 





image_shape=self.image_ shape) 
pooled out = downsample.max pool 2d( 








input=conv_out, ds=self.poolsize, ignore border=True) 








self.output = self.activation fn( 
pooled out + self.b.dimshuffle('x', 0, 'x', 'x')) 
self.output dropout = self.output # 卷 积 层 无 Dropout 





class FullyConnectedLayer(object): 


def init (self, n in, n out, activation fn=sigmoid, p_dropout=0.0): 





self.n in = n in 

self.n out = n_out 
self.activation fn = activation fn 
self.p dropout = p_dropout 

# 初始 化 权重 和 偏 置 

self.w = theano.shared( 








np.asarray 
np.random.normal( 
loc=0.0, scale=np.sqrt(1.0/n out), size=(n_in, n_out)), 
dtype=theano.config.floatX)， 
name="'w' ,borrow=True) 
self.b = theano.shared( 
np.asarray(np.random.normal(loc=0.0, scale=1.0, size=(n_out,)), 
dtype=theano.config.floatX), 
name="'b', borrow=True) 





self.params = [self.w, self.b] 








def set inpt(self, inpt, inpt dropout, mini batch size): 
self.inpt = inpt.reshape((mini batch size, self.n in)) 
self.output = self.activation fn( 
(1-self.p dropout)*T.dot(self.inpt, self.w) + self.b) 
self.y out = T.argmax(self.output, axis=1) 
self.inpt dropout = dropout layer( 
inpt dropout.reshape((mini batch size, self.n in)), self.p dropout) 
self.output dropout = self.activation fn( 
T.dot(self.inpt dropout, self.w) + self.b) 

















def accuracy(self, y): 
"Return the accuracy for the mini-batch." 
return T.mean(T.eq(y, self.y_out)) 





class SoftmaxLayer(object): 


def init (self, n in, n out, p dropout=0.0): 
self.n in = n in 





self.n out = n out 

self.p dropout = p_dropout 
# 初始 化 权重 和 偏 置 

self.w = theano.shared( 
np.zeros((n_in, n_out), dtype=theano.config.floatX), 
name="'w' ,borrow=True) 
self.b = theano.shared( 
np.zeros((n_out,), dtype=theano.config.floatX), 
name="'b', borrow=True) 
self.params = [self.w, self.b 








def set inpt(self, inpt, inpt dropout, mini batch size): 

self.inpt = inpt.reshape((mini batch size, self.n in)) 

self.output = softmax((1-self.p dropout)*T.dot(self.inpt, self.w) + self.b) 

self.y out = T.argmax(self.output, axis=1) 

self.inpt dropout = dropout layer( 
inpt dropout.reshape((mini batch size, self.n in)), self.p dropout) 
self.output dropout = softmax(T.dot(self.inpt dropout, self.w) + self.b) 

















def cost(self, net): 
"Return the log-likelihood cost." 
return -T.mean(T.log(self.output dropout)[T.arange(net.y.shape[0]), net.y]) 





def accuracy(self, y): 
"Return the accuracy for the mini-batch." 
return T.mean(T.eq(y, self.y_out)) 


6.3 ” 卷 积 神经 网 络 的 代码 207 





提 ### 其 他 函数 

def size(data) : 
"Return the size of the dataset “data ." 
return data[0].get value(borrow=True).shape[0] 


def dropout layer(layer, p_dropout): 

srng = shared randomstreams.RandomStreams( 
np.random.RandomState(0).randint(999999)) 
mask = srng.binomial(n=1, p=1-p_dropout, size=layer.shape) 











return layer*T.cast(mask, theano.config.floatX) 


问 题 
口 目前 ，SGD 方法 要 求 用 户 手动 选择 训练 轮 数 。 前 面 介 绍 了 一 种 自动 选择 训练 轮 数 的 方法 一 
提前 停止 。 请 修改 network3.py， 实 现 提前 停止 。 


口 增加 一 个 Network 方法 来 返回 在 任意 数据 集 上 的 准确 率 。 
口 修 改 SGD 方法 来 允许 学 习 率 刀 成 为 训练 轮 数 的 函数 。 





口 前 面 讲 过 一 种 通过 微小 的 旋转 、 扭 曲 和 平移 来 扩展 训练 数据 的 方法 。 修 改 network3.py 来 加 
入 这 些 技术 。 注 意 : 除非 内 存 足 够 大 ,否则 显 式 生成 整个 扩展 数据 集 是 不 现实 的 ， 可 以 考虑 


一 些 变 通 方法 。 


口 在 network3.py 中 增加 1oad 方法 和 save 方法。 





口 当前 代码 的 缺点 是 用 于 诊断 的 工具 很 少 。 你 能 想 出 一 些 诊断 方法 来 衡量 神经 网 络 的 过 匹配 程 
度 吗 ? 尝试 添加 这 些 方法 。 

口 前 面 对 修正 线性 单元 及 sigmoid 和 tanh 函数 神经 元 使 用 了 同样 的 初始 化 方法 , 而 这 种 初始 化 
方法 只 适用 于 sigmoid 函数 。 假 设 使 用 一 个 全 部 采用 修正 线性 单元 的 神经 网 络 ， 尝 试 说 明 以 
l/c(c>0) 调 整 神经 网 络 的 权重 , 最 终 给 出 只 会 改变 1/c (L 为 层 数 )。 如 果 最 后 一 层 是 softmax 
层 , 会 发 生 什么 样 的 变化 ?对 修正 线性 单元 使 用 sigmoid 函数 的 初始 化 方法 会 怎样 ? 有 没有 
更 好 的 初始 化 方法 ? 注意 : 这 是 开放 式 问题 ， 并 没有 简单 的 自 包 含 答案 。 还 有 ， 思 考 这 些 
问题 有 助 于 你 更 好 地 理解 包含 修正 线性 单元 的 神经 网 络 。 

口 前 面 对 梯 度 不 稳定 问题 的 分 析 实 际 上 是 针对 sigmoid 神经 元 的 ， 如 果 针 对 修正 线性 单元 ， 屠 

分 析 又 会 有 何不 同 ? 你 能 想 出 一 种 好 方法 让 神经 网 络 不 太 会 受到 梯度 不 稳定 问题 的 影响 吗 ? 

注意 :“ 好 ”这 个 字 表 明 这 是 一 个 研究 性 问题 。 实 际 上 有 很 多 修改 方法 可 用 ， 但 我 没有 深入 

研究 ， 还 不 能 判定 什么 是 真正 的 好 技术 。 
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6.4 图 像 识别 领域 近期 的 进展 


1998 年 , MNIST 图 像 分 类 问题 被 提出 , 当时 花费 数 周 时 间 训 练 一 个 使 用 先进 技术 的 工作 站 ， 
其 准确 率 明显 低 于 使 用 GPU 且 训练 少 于 一 小 时 便 能 达到 的 准确 率 。 因 此 , 对 MNIST 图 像 进 行 分 
类 不 再 是 一 个 代表 技术 限制 的 问题 ,然而 训练 速度 意味 着 它 适 于 教学 。 此 外 ,研究 重点 已 经 转移 ， 
当前 研究 面 对 的 是 更 具 挑 战 性 的 图 像 识 别 问题 。 下 面 简要 介绍 近期 神经 网 络 在 图 像 识别 上 的 一 些 
成 果 。 

这 部 分 内 容 比较 特别 。 有 些 话 题 是 贯穿 本 书 的 ， 比 如 反 向 传播 、 正 则 化 、 卷 积 神经 网 络 。 本 
书 尽量 避免 涉及 新 潮 的 概念 ， 因 为 不 确定 其 长 期 价值 如 何 。 在 科学 界 ， 这 样 的 成 果 往 往生 命 短促 ， 
会 逐渐 消失 ， 很 少 产 生 持 久 的 影响 。 鉴 于 此 ， 持 怀疑 态度 的 人 可 能 会 说 :“ 嗯 ， 最近 在 图 像 识 别 
上 的 进步 真 的 只 是 流行 一 时 吗 ? 也 许 再 过 两 三 年 , 发 现 并 非 如 此 呢 ? 假如 只 有 某 些 致力 于 开拓 前 
治 领域 的 专家 对 这 些 成 果 感 兴趣 ， 那 么 为 什么 要 讨论 它们 ? ” 


这 样 的 质疑 是 合理 的 ,最 近 论 文中 的 某 些 出 色 的 细节 ,其 重要 性 会 随 着 时 间 逐 渐 减 弱 ,但 过 
去 几 年 使 用 深度 神经 网 络 应 对 极 难 的 图 像 识 别 任务 取得 了 非凡 的 进步 。 想 象 一 下 科学 史学 家 在 
2100 年 写 就 的 关于 计算 机 视觉 的 内 容 , 他 们 会 把 2011 年 至 2015 年 (甚至 更 靠 后 ) 判定 为 由 卷 积 
神经 网 络 驱动 而 取得 重大 突破 的 时 间 。 这 并 不 意味 着 深度 卷 积 神经 网 络 在 2100 年 仍 在 被 使 用 ， 
更 不 用 提 Dropout 、 修 正 线性 单元 等 细碎 概念 了 。 但 它 确实 意味 着 重要 的 变革 正在 发 生 ， 就 是 现 
在 ， 在 知识 的 历史 中 。 它 有 点 像 原 子 的 发 现 或 者 抗生素 的 发 明 ， 是 具有 历史 意义 的 发 明和 探索 。 
所 以 尽管 我 们 不 会 深入 挖掘 细节 ， 但 了 解 目前 正在 进行 的 一 些 激 动 人 心 的 探索 是 值得 的 。 


























































































































6.4.1 2012 年 的 LRMD 论文 


我 们 从 2012 年 由 斯 坦 福 大 学 和 谷歌 的 研究 小 组 发 表 的 一 篇 论文 "开始 ， 我 把 这 篇 论文 称 为 
LRMD， 取 前 4 位 作者 的 姓 。LRMD 使 用 一 个 神经 网 络 来 分 类 ImageNet 图 像 一 一 一 个 非常 具有 
挑战 性 的 图 像 识别 问题 。 他 们 使 用 的 是 2011 年 的 ImageNet 数据 ,包含 了 1600 万 幅 全 彩 图 像 ， 
有 20 000 个 种 类 。 这 些 图 像 收集 自 开 放 的 网 络 ， 由 亚马逊 的 Mechanical Turk 服务 部 门 的 员工 分 
类 。 图 6-16 展示 了 几 幅 ImageNet 图 像 ?。 





















































Q Building high-level features using large scale unsupervised learning， 作 者 是 Quoc Le、Marc'Aurelio Ranzato、Rajat 
Monga 等 人 。 注 意 ， 这 篇 论文 中 使 用 的 神经 网 络 架构 在 很 多 细节 上 和 前 面 介绍 的 深度 卷 积 神经 网 络 不 同 。 然 而 ， 
一 般 说 来 ，LRMD 基于 很 多 类 似 的 思想 。 

@ 这 些 取 自 2014 年 的 数据 集 ， 相 比 2011 年 的 有 点 改变 , 但 实质 上 非常 相似 。 关 于 ImageNet 的 详情 ， 可 以 参考 原始 
的 ImageNet 论文 ImageNet: a large-scale hierarchicalimage database， 由 JiaDeng、WeiDong、Richard Socher 等 人 

于 2009 年 发 表 。 
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图 6-16 


它们 分 别 是 圆 刨 、 神 根 腐 菌 、 者 过 的 牛奶 和 普通 的 曙 虫 。 如 果 你 正在 寻找 挑战 ， 不 妨 访问 
ImageNet 的 手工 工具 列表 ， 该 列表 把 圆 创 、 短 刨 、 倒 角 刨 和 其 他 刨 子 类 型 区 分 开 。 我 个 人 没有 
把 握 区 分 这 些 工具 的 类 型 。 显 然 ， 这 是 一 个 比 MNIST 图 像 分 类 更 有 挑战 性 的 图 像 识别 任务 。 
LRMD 的 神经 网 络 在 分 类 ImageNet 图 像 上 的 准确 率 为 15.8%， 还 不 错 。 听 上 去 可 能 没什么 了 不 
起 , 但 是 和 之 前 的 最 佳 成 绩 9.3% 相 比 已 经 是 巨大 的 进步 了 。 这 个 跃升 暗示 着 神经 网 络 也 许 能 提供 
一 个 强大 的 方法 来 应 对 非常 有 挑战 性 的 图 像 识别 任务 ， 比 如 ImageNet。 


























6.4.2 ”2012 年 的 KSH 论文 


2012 年 ，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton( KSH ) 发 表 的 一 篇 论文 "超越 
了 LRMD 的 成 果 。KSH 使 用 ImageNet 数据 的 一 个 子 集训 练 并 测试 了 一 个 深度 卷 积 神经 网 络 。 他 
们 使 用 的 子 集 来 自 一 个 流行 的 机 器 学 习 竞 赛 : ImageNet Large-Scale Visual Recognition Challenge 
(ILSVRC )。 使 用 竞赛 所 用 数据 集 提供 了 一 个 和 其 他 领先 技术 比较 的 良好 途径 。ILSVRC-2012 训 
练 集 包 含 了 大 约 120 万 幅 ImageNet 图 像 ， 取 自 1000 个 类 别 。 验 证 集 和 测试 集 分 别 包含 50 000 幅 
和 150 000 幅 图 像 ， 分 别 取 自 同样 的 1000 个 类 别 。 

















ILSVRC 竞赛 的 一 大 挑战 是 很 多 ImageNet 图 像 包 含 了 多 个 目标 ,假设 一 幅 图 像 呈 现 的 是 一 条 
拉 布 拉 多 犬 追逐 一 个 足球 。 这 幅 图 像 所谓 “ 正 确 ” 的 ImageNet 分 类 也 许 是 一 条 拉 布 拉 多 犬 。 如 
果 一 个 算法 把 这 幅 图 像 标记 为 一 个 足球 ， 它 应 该 被 扣 分 吗 ? 由 于 这 种 模糊 性 ， 如 果实 际 的 
ImageNet 分 类 落 入 算法 认为 的 最 有 可 能 的 5 个 类 别 中 , 那么 该 算法 就 被 认为 是 正确 的 。 通 过 这 个 
“前 五 ”标准 ，KSH 的 深度 卷 积 神经 网 络 的 准确 率 达 到 了 84.7%， 遥 遥 领 先 于 身后 的 参赛 者 ， 后 者 
的 准确 率 为 73.8%。 采 用 更 严格 的 必须 准确 标记 的 标准 ，KSH 神经 网 络 的 准确 率 达 到 了 63.3%。 














KSH 神经 网 络 激励 了 随后 的 研究 ， 这 里 简要 描述 一 下 。 稍 后 会 讲 到 ， 尽 管 更 为 精细 ， 但 它 
非常 接近 本 章 前 面 训 练 的 神经 网 络 。KSH 使 用 一 个 深度 卷 积 神经 网 络 ， 在 两 个 GPU 上 训练 。 之 
所 以 使 用 两 个 GPU， 是 因为 当时 使 用 的 特定 的 GPU 型 号 ( 一 个 NVIDIA GeForce GTX 580 ) 没 
有 足够 的 片上 存储 器 来 保存 整个 神经 网 络 ， 所 以 他 们 用 两 个 GPU 把 神经 网 络 分 成 了 两 个 部 分 。 











QD Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton. ImageNet classification with deep convolutional neural networks, 2012. 6 
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注 








KSH 神经 网 络 有 7 个 隐藏 屋 ， 前 5 个 隐藏 层 是 卷 积 层 ( 有 些 具 有 最 大 池 化 )， 后 两 个 是 全 连 
接 层 。 输出 层 是 一 个 有 1000 个 神经 元 的 softmax 层 ， 对 应 那 1000 个 图 像 类 别 。 图 6-17 展示 了 
该 神经 网 络 的 一 张 草图 ， 取 自 KSH 论文 ?。 细 节 稍 后 详 述 。 注 意 ， 许 多 层 分 成 了 两 部 分 ， 对 应 
两 个 GPU。 





图 6-17 


输入 层 包含 3x224x224 个 神经 元 ， 对 应 一 幅 224x224 图 像 的 RGB 值 。 前 面 提 到 ImageNet 
包含 不 同 分 辩 率 的 图 像 , 这 就 引 来 了 一 个 问题 , 因为 一 个 神经 网 络 的 输入 层 通常 具有 固定 的 大 小 
KSH 处 理 这 个 问题 的 方式 是 缩放 每 幅 图 像 , 使 得 较 短 的 一 边 的 长 度 为 256, 然后 他 们 从 缩放 后 的 
图 像 中 裁剪 出 一 个 256x256 的 区 域 。 最 后 ，KSH 从 256x256 的 图 像 中 随机 提取 224x224 的 子 图 
像 ( 和 水 平 变 换 )。 他 们 通过 随机 裁剪 来 扩展 训练 数据 ， 以 此 减轻 过 拟 合 。 这 在 KSH 这 样 的 大 型 
神经 网 络 中 尤其 有 帮助 。 这 些 224x224 图 像 用 作 神 经 网 络 的 输入 。 在 大 多 数 情况 下 ,裁剪 后 的 图 
像 仍 然 包 含 完 整 的 主要 目标 。 























继续 看 KSH 神经 网 络 的 隐藏 层 ， 第 1 个 隐藏 层 是 卷 积 层 ， 包 含 最 大 池 化 。 它 采用 了 11x11 
大 小 的 局 部 感受 野 和 一 个 4 像素 的 跨 距 。 总 共有 96 个 特征 映射 ， 分 为 两 组 ， 其 中 一 组 的 48 个 特 
征 映 射 放 在 一 个 GPU 上 ， 另 一 组 的 48 个 特征 映射 放 在 另 一 个 GPU 上 。 这 一 层 和 后 面 层 的 最 大 
池 化 在 3x3 的 区 域 中 完成 ,但 是 池 化 区 域 是 可 重 欠 的。 





























第 2 个 隐藏 层 也 是 卷 积 层 ， 也 包含 最 大 池 化 。 它 采用 了 5x5 大 小 的 局 部 感受 野 , 共有 256 个 
特征 映射 ， 均 分 到 两 个 GPU 上 。 注意, 特征 映射 仅仅 使 用 48 个 输入 通道 ， 不 是 来 自前 一 层 的 全 
部 96 个 输出 ( 当然 通常 是 这 样 ), 这 是 因为 任何 单个 特征 映射 仅仅 使 用 来 自 同 一 个 GPU 的 输入 ， 
在 这 种 情况 下 ， 神 经 网 络 就 和 前 面 介绍 的 卷 积 架构 不 同 了 ， 不 过 本 质 上 想法 是 完全 相同 的 。 


























人 感谢 Ilya Sutskever。 
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第 3 ~ 5 个 隐藏 层 是 卷 积 层 ， 但 与 前 面 不 同 ， 这 里 不 包含 最 大 池 化 。 它 们 对 应 的 参数 是 ， 第 
3 个 隐藏 层 : 384 个 特征 映射 ，3x3 大 小 的 局 部 感受 野 和 256 个 输入 通道 ; 第 4 个 隐藏 层 : 384 个 
特征 映射 ，3x3 大 小 的 局 部 感受 野 和 192 个 输入 通道 ; 第 5 个 隐藏 层 : 256 个 特征 映射 ，3x3 大 小 
的 局 部 感受 野 和 256 个 输入 通道 。 注 意 ， 第 3 层 包 含 GPU 间 的 一 些 通信 ( 如 图 6-17 所 示 ) 来 让 
特征 映射 使 用 所 有 256 个 输入 通 























(e) 

















道 
第 6 个 和 第 7 个 隐藏 层 是 全 连接 层 ， 各 有 4096 个 神经 元 。 











输出 层 是 有 1000 个 单元 的 softmax 层 。 














KSH 神经 网 络 利 用 了 很 多 技术 , 采用 修正 线性 单元 , 而 非 sigmoid 激活 函数 或 者 tanh 激活 函 
数 ， 显 著 加 速 了 训练 。KSH 神经 网 络 有 约 6000 万 个 参数 ， 因 此 就 算 有 更 大 的 训练 集 ， 也 会 发 生 
过 拟 合 。 为 了 克服 此 缺点 ， 他 们 使 用 前 面 提 到 的 随机 裁剪 策略 扩展 了 训练 数据 集 ， 还 使 用 L2 正 
则 化 的 变 体 和 Dropout 来 处 理 过 拟 合 问题 。 该 神经 网 络 使 用 基于 动量 的 小 批量 随机 梯度 下 降 算法 
进行 训练 。 
































以 上 是 对 KSH 论文 中 许多 核心 思想 的 概述 ， 忽 略 了 一 些 细节 ， 你 可 以 参阅 论文 ,也 可 以 参 
考 Alex Krizhevsky 的 cuda-convnet ( 和 后 续 版 本 )， 它 包含 了 实现 这 些 想法 的 代码 。 有 一 个 基于 
Theano 的 实现 "。 尽 管 使 用 多 个 GPU 使 得 情况 变 得 复杂 ， 但 代码 本 身 还 是 与 本 章 的 类 似 。Caffe 
神经 网 络 框 架 也 包含 KSH 神经 网 络 的 一 个 版 本 ， 参 见 Model Zoo。 








6.4.3 2014 年 的 ILSVRC 竞赛 


自 2012 年 以 来 ， 对 神经 网 络 的 研究 一 直 在 快速 推进 。2014 年 的 ILSVRC 竞赛 和 2012 年 的 
一 样 ,图像 有 120 万 幅 ，1000 个 类 别 , 评分 标准 是 前 5 个 预测 是 否 包含 正确 的 类 别 。 获 胜 团 队 主 
要 来 自 谷歌 *， 使 用 了 包含 22 层 神 经 元 的 深度 卷 积 神经 网 络 。 他 们 称 其 为 GoogLeNet， 是 对 
LeNet-5 的 致敬 。GoogLeNet 在 “前 五 ”上 准确 率 达 到 了 93.33%， 远 超 2013 年 的 获胜 者 ( Clarifai， 
88.30% ) 和 2012 年 的 获胜 者 ( KSH，84.70% )。 





























GoogLeNet 93.33% 的 准确 率 水 平 究 竟 如 何 呢 ? 2014 年 ， 一 个 研究 团队 发 表 了 一 篇 关于 
ILSVRC 竞赛 的 综述 文章 ”， 其 中 有 个 问题 是 人 类 在 这 个 竞赛 中 的 表现 如 何 。 为 此 他 们 构建 了 一 
个 系统 ， 让 人 类 对 ILSVRC 图 像 进行 分 类 。 其 作者 之 一 Andrej Karpathy 在 一 篇 博文 中 解释 说 ， 


























QD Weiguang Ding, Ruoyan Wang, Fei Mao, et al. Theano-based large-scale visual recognition with multiple GPUs, 2014. 
© Christian Szegedy Wei Liu, Yangqing Jia, et al. Going deeper with convolutions, 2014. 
@) Olga Russakovsky, Jia Deng, Hao Su, et al. ImageNet large scale visual recognition challenge, 2014. 
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让 人 类 达到 GoogLeNet 的 表现 确实 很 困难 。 


ee 人 们 很 快 便 发 现 从 1000 个 类 别 中 挑选 出 5 个 来 标记 图 像 是 非常 具有 挑战 性 的 
任务 , 其 至 对 一 些 参 与 过 ILSVRC 或 与 之 类 似 的 在 实验 室 工作 的 朋友 也 是 如 此 。 开 始 我 
们 以 为 能 把 它 放 到 亚 马 进 的 Mechanical Turk 上 ， 我 们 还 想 过 有 偿 招募 些 未 毕业 的 大 学 
生 。 之 后 我 组 织 了 一 个 标记 会 ， 只 有 实验 室 里 有 丰富 标记 经 验 的 人 ( 专业 标记 人 员 ) 参 
与 ,我 还 修改 了 接口 ,通过 GoogLeNet 预测 来 把 多 余 的 类 别 数量 从 1000 减少 到 只 有 100。 
但 问题 还 是 太 难 了 ， 大 家 没 能 正确 分 类 很 多 图 片 ， 错 误 率 达到 了 13%~ 15%。 最 后 我 意 
识 到 为 了 接近 GoogLeNet, 最 高 效 的 做 法 是 坐 下 来 亲自 完成 痛苦 的 长 期 训练 过 程 以 及 随 
后 的 仔细 标记 …… 标 记 以 每 分 钟 1 个 的 速度 进行 , 但 随 着 时 间 的 推移 变 慢 了 .…… 有 些 图 
像 容易 识别 ， 而 有 些 图 像 (例如 那些 有 细密 花纹 的 狗 、 鸟 或 者 猴子 的 种 类 ) 需要 付出 数 
倍 的 精力 。 我 变 得 非常 擅长 鉴别 狗 的 品种 …… 对 于 我 标注 过 的 图 像样 本 ，GoogLeNet 
的 分 类 误差 为 6.8%…… 我 自己 的 误差 最 终 为 5.1%， 以 1.7% 的 微弱 优势 胜出 。 


换言之 , 一 个 专家 水 平 的 人 ,非常 仔细 地 查看 图 像 ， 付 出 巨大 的 努力 才能 略微 胜 过 深度 神经 
网 络 。 实 际 上 ，Karpathy 指出 第 二 位 人 类 专家 ， 在 用 少量 的 图 像样 本 进行 训练 后 ,“ 前 五 ”的 错 
误 率 达到 12.0%， 明 显 弱 于 GoogLeNet。 大 概 有 一 半 的 错误 出 自 专 家 “难以 识别 和 判定 正确 的 类 
别 究 竞 是 什么 ”。 


结果 令 人 吃惊 。 的确, 在 这 项 成 果 后 , 很 多 团队 也 声称 在 “前 五 ”上 的 错误 率 实际 低 于 5.1%。 
有 时 媒体 将 其 报道 成 系统 的 视觉 超过 人 类 。 尽管 这 些 结果 是 很 振奋 人 心 的 , 但 这 样 的 报道 其 实 是 
一 种 误解 ， 事 实 上 系统 在 视觉 上 并 未 超越 人 类 。ILSVRC 竞赛 问题 在 很 多 方面 是 受 限 的 ， 例 如 从 
公开 的 网 络 获取 的 图 像 并 不 具备 实际 的 代表 性 。 而 且 “ 前 五 ”的 标准 也 是 人 为 设 定 的 。 我 们 在 图 
像 识别 领域 的 研究 , 或 者 更 宽泛 地 说 ,在 计算 机 视觉 方面 的 研究 ， 还 有 很 长 的 路 要 走 。 当 然 近 些 
年 有 了 很 多 进展 ， 还 是 很 鼓舞 人 心 的 。 






























































6.4.4 其 他 活动 


前 面 重点 介绍 了 ImageNet， 但 还 有 其 他 一 些 使 用 神经 网 络 进行 图 像 识别 的 研究 ， 下 面 介绍 其 
中 的 一 些 进 展 。 

















谷歌 的 一 个 团队 开发 了 一 个 振奋 人 心 的 应 用 , 他 们 应 用 深度 卷 积 神经 网 络 识别 谷歌 街景 图 像 
库 中 的 街景 数字 ”。 在 他 们 的 论文 中 , 对 近 1 亿 个 街景 数字 进行 自动 检测 和 自动 转述 的 水 平 与 人 类 

















QD Ian J. Goodfellow, Yaroslav Bulatov, Julian Ibarz, et al. Multi-digit Number Recognition from Street View Imagery using 
Deep Convolutional Neural Networks, 2013. 
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不 相 上 下 。 系 统 执行 很 快 ， 一 小 时 内 就 将 法 国 所 有 的 街景 数字 都 转述 了 。 他 们 说 道 :“ 这 种 新 数 
据 集 能 够 显著 提高 谷歌 地 图 在 一 些 国 家 的 地 理 精度 ， 尤 其 是 那些 缺少 地 理 编码 的 地 区 。” 他 们 还 
做 了 一 个 更 一 般 的 论断 :“ 我 们 坚信 这 个 模型 能 解决 很 多 应 用 中 字符 短 序列 的 光学 字符 识别 问题 。 


前 面 提 到 的 所 有 结果 都 是 正面 的 , 这 很 令 人 振奋 。 当 然 ， 目 前 一 些 有 趣 的 研究 工作 也 提出 了 

一 些 还 未 理解 的 根本 性 问题 。 例 如 2013 年 的 一 篇 论文 "指出 , 深度 神经 网 络 可 能 会 受到 有 效 讶 点 

I 影响。 如 图 6-18 所 示 ， 左 侧 是 被 神经 网 络 正确 分 类 的 ImageNet 图 像 ， 右 侧 是 一 幅 稍 受 干扰 的 

图 像 〈 使 用 中 间 的 噪声 进行 干扰 )， 结 果 就 没 能 正确 分 类 。 论 文 作者 发 现 每 幅 图 像 都 存在 这 样 的 
“对 立 图 像 ”， 并 非特 例 。 








图 6-18 


这 个 结果 令 人 人 不安。 论文 所 用 神经 网 络 基于 KSH 代码 ， 尽 管 这 样 的 神经 网 络 计算 的 函数 在 
理论 上 是 连续 的 , 但 结果 表明 在 实际 应 用 中 可 能 会 碰 到 很 多 不 连续 的 函数 。 更 糟糕 的 是 , 它们 会 
以 违背 常理 的 方式 变 得 不 连续 ， 确 实 很 棘手 。 另 外 ,， 这 种 不 连续 性 出 现 的 原因 还 没有 找到 : 是 跟 
损失 函数 有 关 吗 ? 或 者 激活 函数 ?又 或 是 网 络 架 构 ? 我 们 对 此 一 无 所 知 。 





当然 ， 也 不 必 太 过 担心 。 尽 管 “ 对 立 图 像 ” 会 出 现 , 但 实际 情景 中 并 不 常见 ,论文 又 做 了 如 
下 论述 。 


GD Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, et al. Intriguing properties of neural networks, 2013. 
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反例 的 存在 看 起 来 和 神经 网 络 能 获得 良好 的 泛 化 性 能 相 违 背 。 实 际 上 ， 如 果 神经 网 
络 可 以 很 好 地 泛 化 ， 会 受到 这 些 难以 区 分 的 反例 怎样 的 影响 呢 ? 解释 是 ,反例 出 现 的 概 
率 特别 低 ， 因 此 在 测试 集中 几乎 难以 发 现 ， 然 而 反例 又 是 密集 的 (有 点 像 有 理 数 )， 几 
乎 会 在 每 个 测试 集中 出 现 。 


我 们 对 神经 网 络 的 理解 还 是 太 少 了 ， 这 令 人 困扰 ,前面 仅仅 介绍 了 近期 的 研究 成 果 。 当 然 ， 
这 样 的 结果 催生 了 一 系列 研究 工作 。 例 如 有 一 篇 文章 "提出 ， 给 定 一 个 训练 好 的 神经 网 络 ， 可 以 
生成 对 人 类 来 说 是 白 噪声 的 图 像 ,但 是 神经 网 络 有 把 握 对 其 分 类 。 这 也 是 研究 神经 网 络 和 图 像 识 
别 应 用 的 重要 方向 。 

尽管 有 这 么 多 困难 , 但 前 途 仍 是 光明 的 。 很 多 相当 困难 的 基准 任务 的 研究 进展 迅速 ,实际 问 
题 的 研究 进展 也 是 如 此 ,例如 前 面 提 到 的 街景 数字 识别 。 但 需要 注意 ,单单 有 基准 任务 乃至 实际 
应 用 的 进展 是 不 够 的 。 这 是 因为 我 们 还 对 很 多 根本 性 的 现象 了 解 甚 少 ,例如 “对 立 图 像 ”问题 的 
存在 。 这 样 的 根本 性 问题 仍 亟待 了 解 〈 或 者 解决 )， 声 称 我 们 已 经 接近 图 像 识 别 问题 的 最 终 答案 
是 讲 不 通 的 。 当 然 ， 这 样 的 根本 性 问题 也 会 激发 后 续 的 研究 。 


6.5 其 他 深度 学 习 模 型 


本 书 聚 焦 于 解决 MNIST 数字 分 类 问题 。 这 个 “下 金 蛋 ” 的 问题 涉及 许多 杰出 思想 : 随机 梯 
度 下 降 算 法 、 反 向 传播 算法 、 卷 积 神经 网 络 和 正则 化 ， 等 等 。 不 过 ,该 问题 相当 狭窄 ， 如 果 你 研 
读 过 神经 网 络 的 研究 论文 , 那么 会 发 现 还 有 本 书 中 未 曾 讨论 的 很 多 思想 : 循环 神经 网 络 、 玻 尔 效 
曼 机 、 生 成 模型 、 迁 移 学 习 和 强化 学 习 …… ( 还 有 很 多 ! ) 神经 网 络 是 一 个 广阔 的 领域 ,然而 很 
多 重要 的 想法 是 本 书 探讨 过 的 那些 想法 的 变 体 。 有 了 本 书 的 知识 基础 ,再 加 上 一 些 付出 , 便 可 以 
理解 这 些 新 思想 。 下 面 介绍 其 中 一 些 思想 , 但 不 会 特别 细致 和 深入 ,车 要 达成 这 两 点 ， 本 书 就 得 
扩展 相当 多 的 内 容 了 。 因 此 ， 接 下 来 的 讨论 偏重 思想 性 的 启发 ， 旨 在 展示 该 领域 中 丰富 的 概念 ， 
并 将 其 中 一 些 思 想 与 前 面 介绍 过 的 概念 相关 联 。 我 也 会 提供 其 他 一 些 学 习 资源 的 链接 ， 当 然 ， 链 
接 给 出 的 很 多 想法 很 快 会 被 超越 ， 所 以 建议 搜索 最 新 的 研究 成 果 。 尽 管 如 此 , 我 仍 希 望 众 多 本 质 
性 的 想法 能 够 获得 足够 久 的 关注 。 


6.5.1 循环 神经 网 络 


在 前 馈 神经 网 络 中 , 单独 的 输入 完全 决定 了 剩 下 的 层 中 神经 元 的 激活 值 。 可 以 将 其 想象 成 一 
幅 静 态 的 图 景 : 网 络 中 的 所 有 事物 都 被 固定 了 ， 处 于 一 种 “冰冻 结晶 ”的 状态 。 但 假如 我 们 人 允许 











































































































































































































GD Anh Nguyen, Jason Yosinski, Jeff Clune. Deep Neural Networks are Easily Fooled: High Confidence Predictions for 
Unrecognizable Images, 2014. 
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网 络 中 的 元 素 能 够 动态 变化 , 例如 隐藏 神经 元 的 行为 不 是 完全 由 前 一 层 的 隐藏 神经 元 决定 的 ,而 
是 同样 受制 于 更 靠 前 的 层 中 神经 元 的 激活 值 , 这 样 肯定 会 产生 跟前 馈 神 经 网 络 不 同 的 效果 。 也 可 
能 隐藏 层 和 输出 层 的 神经 元 的 激活 值 不 会 单单 由 当前 的 网 络 输 入 决定 , 而 是 还 会 受到 前 面 输入 的 


局 
影响 。 















































拥有 这 类 时 间 相 关 行 为 特性 的 神经 网 络 就 是 循环 神经 网 络 ( recurrent neural network，RNN )。 
当然 ， 数 学 上 对 循环 神经 网 络 有 不 同形 式 的 定义 ， 参 见 维基 百科 的 相关 介绍 。 在 我 写作 本 书 时 ， 
维基 百科 上 介绍 的 模型 超过 13 种 。 除 了 数学 细节 ， 更 一 般 的 想法 是 ， 循 环 神经 网 络 是 某 种 体现 
出 了 随时 间 动 态 变 化 特性 的 神经 网 络 。 这 毫 不 奇怪 , 循环 神经 网 络 在 分 析 和 处 理 时 序数 据 方面 效 
果 很 棒 。 这 样 的 数据 和 处 理 正 是 语音 识别 和 自然 语言 处 理 中 常见 的 研究 对 象 。 















































循环 神经 网 络 被 用 于 将 传统 的 算法 思想 ( 比如 图 灵机 或 者 编程 语言 ) 和 神经 网 络 联系 起 来 。 
2014 年 的 一 篇 论文 "提出 一 种 循环 神经 网 络 能 以 Python 程序 的 字符 表示 作为 输入 ,用 于 预测 输出 。 
简 言 之 ,神经 网 络 通过 学 习 来 理解 某 些 Python 程序 。 当 年 的 男 一 篇 论文 > 同样 使 用 循环 神经 网 络 
来 设计 一 种 名 为 神经 图 灵机 的 模型 。 这 是 一 种 通用 机 器 ,其 整个 结构 可 以 使 用 梯度 下 降 算法 来 训 
练 。 论 文 作者 训练 神经 图 灵机 来 推断 对 一 些 简单 问题 的 算法 ， 比 如 排序 和 复制 。 












































不 过 正如 论文 中 提 到 的 ， 这 些 例 子 都 是 极其 简单 的 模型 。 学 会 执行 print(398345+42598) 并 
不 能 让 神经 网 络 称 得 上 功能 完备 的 Python 解释 器 ! 这 些 想法 能 前 进 多 远 也 是 未 知 的 ， 结 果 都 充 
满 了 不 确定 性 。 历 史上 ， 神 经 网 络 已 经 在 传统 算法 无 能 为 力 的 模式 识别 问题 上 取得 了 一 些 成 功 ， 
而 传统 算法 也 在 神经 网 络 并 不 擅长 的 领域 里 显露 身手 。 今 天 没 人 会 使 用 神经 网 络 来 实现 Web 服 
务 器 或 者 数据 库 程序 。 人 研究 出 将 神经 网 络 和 传统 算法 结合 的 模型 一 定 是 非常 棒 的 。 循环 神经 网 络 
本 身 及 其 带 来 的 启发 可 能 会 提供 不 少 帮助 。 



















































































循环 神经 网 络 近 些 年 被 用 于 解决 其 他 问题 。 在 语音 识别 中 ,循环 神经 网 络 特别 有 效 。 例 如 
基于 循环 神经 网 络 的 方法 已 经 在 音素 识别 中 取得 了 准确 率 上 的 领先 ， 在 改进 人 类 语言 识别 模型 
中 也 得 到 了 应 用 。 更 好 的 语言 模型 意味 着 能 够 区 分 发 音 相同 的 那些 词 ， 例 如 尽管 发 音 相 同 ， 但 
to infinity andbeyond 比 two infinity andbeyond 更 可 能 出 现 。 循 环 神经 网 络 在 某 些 语 言 的 基准 测试 
集 上 刷新 了 纪录 。 




















语音 识别 这 项 研究 不 仅仅 用 到 了 循环 神经 网 络 ， 还 涉及 其 他 类 型 的 深度 神经 网 络 。 例 如 基 
于 神经 网 络 的 方法 在 大 规模 词汇 的 连续 语音 识别 中 获得 了 极 佳 的 结果 。 男 外 ， 一 个 基于 深度 神 




















QD Wojciech Zaremba, Ilya Sutskever. Learning to Execute, 2014. 
© Alex Graves, Greg Wayne, Ivo Danihelka. Neural Turing Machines, 2014. 
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经 网 络 的 系统 已 经 用 于 谷歌 的 Android 操作 系统 中 了 ( 详 见 Vincent Vanhoucke 2012 年 至 2015 年 
的 论文 )。 














前 面 介绍 了 循环 神经 网 络 的 部 分 用 途 , 还 未 提 及 其 工作 机 制 。 前 馈 神经 网 络 中 的 很 多 思想 也 
适用 于 循环 神经 网 络 , 例如 可 以 使 用 梯度 下 降 算法 和 反 向 传播 算法 的 修改 版 本 来 训练 循环 神经 网 
络 。 前 馈 神 经 网 络 中 的 其 他 一 些 思 想 ， 比 如 正则 化 技术 、 卷 积 、 激 活 函数 、 代 价 函 数 等 ,应 用 于 
循环 神经 网 络 都 非常 有 效 。 本 书 介绍 的 很 多 技术 适用 于 循环 神经 网 络 。 








6.5.2 ”长 短期 记忆 单元 


影响 循环 神经 网 络 的 一 个 挑战 是 模型 前 期 很 难 训练 ， 其 至 比 前 馈 神经 网 络 更 难 。 原 因 就 是 
第 5 章 提 到 的 梯度 不 稳定 问题 。 回 想 一 下 ， 这 个 问题 的 通常 表现 是 在 反 向 传播 中 梯度 越 来 越 小 ， 
这 就 使 得 前 面 的 神经 网 络 层 学 习 得 非常 缓慢 。 在 循环 神经 网 络 中 ,这 个 问题 更 糟糕 ， 因 为 梯度 不 
仅仅 通过 层 反 向 传播 , 还 会 随时 间 进 行 反 向 传播 。 如 果 神 经 网 络 运行 了 很 长 一 段 时 间 ， 梯度 就 会 
变 得 特别 不 稳定 ， 学 不 到 什么 。 好 在 可 以 向 其 中 引入 长 短期 记忆 单元 (long short-term memory unit， 
LSTM unit )。 长 短期 记忆 单元 最 早 是 由 Sepp Hochreiter 和 Jiirgen Schmidhuber 于 1997 年 提出 的 ， 
意 在 解决 梯度 不 稳定 问题 。 长 短期 记忆 单元 让 循环 神经 网 络 的 训练 变 得 相当 简单 ， 近 期 很 多 论文 
(包括 前 面 给 出 的 那些 ) 采用 了 长 短期 记忆 单元 或 者 相关 思想 。 


















































6.5.3 ”深度 信念 网 络 、 生 成 模型 和 玻 尔 兹 曼 机 


深度 学 习 始 于 2006 年 ， 最 早 的 论文 就 是 讨论 如 何 训练 名 为 深度 信念 网 络 ( deep belief 
network，DBN ) 的 神经 网 络 "。 之 后 一 段 时 间 ， 深度 信 念 网 络 很 有 影响 力 , 但 近 些 年 前 馈 神 经 网 
络 和 循环 神经 网 络 流行 开 来 ， 盖 过 了 深度 信念 网 络 的 势头 。 尽 管 如 此 ,深度 信念 网 络 还 是 有 几 个 
有 趣 的 特性 。 



































其 一 是 深度 信念 网 络 是 一 种 生成 模型 。 在 前 馈 神 经 网 络 中 , 我 们 指定 了 输入 的 激活 函数 ,这 
些 激 活 函 数 便 决 定 了 神经 网 络 中 后 面 层 的 激活 值 。 深 度 信 念 网 络 这 样 的 生成 模型 也 能 如 此 , 但 也 
可 以 指定 某 些 特征 神经 元 的 值 ， 然 后 “ 反 向 运行 ”， 生 成 输入 激活 值 。 具 体 而 言 ， 深 度 信 念 网 络 
在 手写 数字 图 像 上 训练 后 可 以 生成 与 之 类 似 的 图 像 。 换 言 之 , 深度 信念 网 络 可 以 学 习 书 写 的 能 
因此 , 生成 模型 更 像 人 类 大 脑 : 不 仅 可 以 认 出 数字 , 还 能 写 出 数字 。 借用 Geoffrey Hinton 的 话说 : 
“要 识别 对 象 的 形状 ， 得 先 学 会 生成 图 像 。 
































QD Geoffrey Hinton, Simon Osindero, Yee-Whye Teh. A fast learning algorithm for deep belief nets, 2006. 
Geoffrey Hinton. Ruslan Salakhutdinov. Reducing the dimensionality of data with neural networks, 2006. 
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男 外 ， 深 度 信念 网 络 可 以 进行 无 监督 学 习 和 半 监 督学 习 。 例 如 在 使 用 图 像 数 据 进行 学 习 时 ， 
深度 信念 网 络 可 以 学 到 有 用 的 特征 来 理解 其 他 图 像 ， 即 使 训练 图 像 是 无 标记 的 , 也 能 如 此 。 这 种 
进行 无 监督 学 习 的 能 力 对 于 根本 性 的 科学 推理 和 实际 应 用 (如果 完 成 得 足够 好 的 话 ) 来 说 都 是 非 
常 有 用 的 。 












































既然 深度 信念 网 络 有 这 些 令 人 瞩目 的 特性 , 却 为 何 仍然 在 深度 学 习 的 浪潮 中 逐渐 消失 呢 ? 部 
分 原因 是 前 馈 神 经 网 络 和 循环 神经 网 络 表 现 亮 眼 , 例如 在 图 像 识 别 和 语音 识别 的 基准 测试 任务 上 
取得 突破 , 所 以 大 家 把 注意 力 转 移 到 这 些 模型 上 也 就 不 足 为 奇 了 。 这 里 还 潜藏 着 一 个 不 太 乐 观 的 
推论 ， 研 究 领 域 里 的 法 则 是 “ 赢 者 通 吃 ”， 所 以 几乎 所 有 注意 力 都 会 集中 于 最 流行 的 领域 ， 这 会 
给 那些 投身 于 目前 不 太 流 行 的 研究 方向 的 研究 人 员 带 来 很 大 压力 ， 虽然 预期 的 研究 价值 非常 高 ， 
但 是 压力 仍然 存在 。 我 个 人 认为 深度 信念 网 络 和 其 他 生成 模型 应 该 得 到 更 多 关注 , 将 来 深度 信念 
网 络 或 者 相关 模型 超过 目前 流行 的 模型 也 不 无 可 能 。 若 想 了 解 深 度 信 念 网 络 ， 可 以 参考 相关 综 
述 和 文章 。 






























































6.5.4 其 他 想法 


神经 网 络 和 深度 学 习 中 还 有 其 他 哪些 研究 正在 进行 ? 其 实 还 有 大 量 极 具 吸 引力 的 工作 。 现在 
热门 的 领域 包括 使 用 神经 网 络 进 行 自 然 语 言 处 理 、 机 器 翻译 ， 以 及 更 令 人 惊喜 的 应 用 ， 比 如 音乐 
信息 学 ， 当 然 远 不 止 这 些 。 学 完 本 书后 ,你 应 该 可 以 了 解 其 中 车 干 领域 的 近期 工作 ( 可 能 还 需要 
补充 一 些 背 景 知识 )。 





























有 一 篇 有 趣 的 论文 , 介绍 了 将 深度 卷 积 神经 网 络 和 一 种 名 为 强化 学 习 的 技术 相 结 合 来 学 习 玩 
电子 游戏 。 其 思想 是 使 用 卷 积 神经 网 络 来 简化 游戏 界面 的 像素 数据 , 将 数据 转化 成 一 组 特征 的 简 
化 集合 ， 最 终 使 用 这 些 信息 来 确定 采取 何 种 操作 :“ 上 ”“ 下 ”“ 开 火 ” 等 。 有 趣 的 是 ， 单 个 神经 
网 络 学 会 了 玩 7 款 经 典 游戏 ,对 于 其 中 3 款 的 表现 已 经 超过 了 专业 玩家 。 这 上 听 起 来 像 喷头 ， 当 然 
论文 标题 也 挺 抓 眼球 的 一 一 Playzzg Atari with Deep Reinforcement Learning。 但 是 透 过 表象 ， 想 想 
系统 以 原始 像素 数据 为 输入 , 它 甚 至 不 知道 游戏 规则 ! 从 数据 中 学 会 在 非常 不 同 且 势均力敌 的 场 
景 中 做 出 高 质量 的 决策 ， 而 这 些 场景 各 有 一 套 复 杂 的 规则 。 策 略 可 谓 非 常 巧 妙 。 


6.6 ”神经 网 络 的 未 来 


6.6.1 意图 驱动 的 用 户 盐 面 


有 个 很 老 的 笑话 。 一 位 教授 不 耐烦 地 对 一 位 困惑 的 学 生 说 道 :“ 不 要 光 听 我 说 了 什么 ， 要 听 
懂 背 后 的 含义 。” 历史 上， 计算 机 的 形象 通常 是 笑话 中 困惑 的 学 生 ， 完 全 不 懂 用 户 的 真正 意图 。 
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而 现在 这 个 场景 发 生 了 变化 。 我 仍然 记得 自己 使 用 谷歌 搜索 时 输 错 了 一 个 查询 ， 搜 索引 擎 问 我 : 
“你 是 否 要 查询 “XXX”( 正确 的 查询 目标 ) ? ”然后 给 出 了 对 应 的 搜索 结果 。 谷 歌 前 首席 执行 官 
拉 里 ， 佩 奇 曾 说 过 ， 最 佳 搜索 引擎 能 准确 理解 用 户 查询 的 背后 含义 ， 并 给 出 相应 的 结果 。 


























就 是 意图 驱动 的 用 户 界面 的 愿景 。 在 这 种 场景 中 , 搜索 引擎 不 是 直接 对 用 户 的 查询 词 反馈 
目 机 器 学 习 技 术 对 大 量 的 用 户 输入 数据 进行 分 析 , 研究 查询 本 身 的 含义 ,并 通过 
现 来 提供 最 佳 的 搜索 结果 。 
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意图 驱动 界面 这 样 的 概念 不 仅仅 用 于 搜索 。 接 下 来 的 数 十 年 , 数 以 千 计 的 公司 会 利用 机 器 学 
习 进 行 产品 设计 , 提高 用 户 界 面 的 准确 率 , 精准 把 握 用 户 意图 。 先 行者 包括 Apple 的 Siri、 Wolfram 
Alpha、IBM 的 Watson， 以 及 可 以 对 照片 和 视频 进行 标注 的 系统 。 





























大 多 数 产 品 会 失败 。 设计 启发 式 用 户 界面 非常 困难 , 我 期 望 有 更 多 公司 采用 强大 的 机 器 学 习 
技术 来 构建 用 户 界面 。 最 优 的 机 器 学 习 并 不 会 在 用 户 界 面 设计 很 糟糕 时 发 挥 作用 , 但 最 终 肯定 会 
有 能 够 胜出 的 产品 。 随 着 时 间 的 推移 ， 人 类 与 计算 机 的 关系 会 发 生 重大 改变 。2005 年 ， 用 户 认为 
自己 理应 准确 地 与 计算 机 交互 ， 因 此 当时 的 计算 机 文化 很 大 程度 上 意味 着 认同 计算 机 是 完全 照 
字面 意义 的 , 一 个 分 号 放 错 便 会 完全 改变 与 计算 机 的 交互 含义 。 但 是 在 今后 数 十 年 内 ,我们 期 待 
创造 出 意图 驱动 的 用 户 界 面 ， 这 会 显著 改变 我 们 与 计算 机 交互 的 体验 。 




















6.6.2 ”机 器 学 习 、 数 据 科 学 和 创新 的 循环 


当然 , 机 带 学 习 不 仅 可 用 于 构建 意图 驱动 的 用 户 界面 , 另 一 个 有 趣 的 应 用 是 在 数据 科学 中 机 
器 学 习 可 以 找到 藏 在 数据 中 的 “ 确 知 的 未 知 ”。 这 已 经 是 非常 流行 的 领域 了 ， 很 多 文章 和 图 书 也 
介绍 了 这 一 点 ， 所 以 本 书 不 会 涉及 大多。 这 里 探讨 较 少 讨论 的 一 点 一 这 种 流行 的 影响 。 长 期 来 
看 , 很 可 能 机 器 学 习 中 最 大 的 突破 不 会 是 单一 的 概念 突破 ,而 更 可 能 是 机 器 学 习 研 究 会 获得 丰厚 
的 成 果 ， 涵 盖 数 据 科学 及 其 他 领域 。 如 果 企 业 在 机 器 学 习 研 究 中 投入 1 美元, 会 有 1.1 美元 的 回 
报 , 那么 机 噩 学 习 人 研究 会 有 充足 的 资金 保证 。 换 言 之 , 机 需 学 习 是 驱动 主要 的 新 兴 市 场 和 技术 进 
步 的 引擎。 结果 就 是 精通 业务 的 大 型 团队 出 现 , 并 能 够 获得 足够 的 资源 , 这 样 就 能 将 机 器 学 习 推 
向 新 高 度 ， 创 造 出 更 多 市 场 和 机 会 ， 形 成 一 种 高 级 创新 的 循环 。 













































































6.6.3 ”神经 网 络 和 深度 学 习 的 作用 


前 面 探讨 过 机 咒 学 习 会 为 技术 发 展开 创 更 多 可 能 , 那么 神经 网 络 和 深度 学 习作 为 技术 会 有 什 
么 特殊 贡献 呢 ? 
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为 了 更 好 地 回答 这 个 问题 ,首先 回 顾 一 下 历史 。 早 在 20 世纪 80 年 代 ， 人 们 便 对 神经 网 络 抱 
以 信心 和 期 盼 ， 尤 其 在 反 向 传播 声名 静 起 后 。 而 在 20 世纪 90 年 代 ， 这 样 的 热情 逐渐 冷却 ， 对 机 
器 学 习 领 域 的 关注 转移 到 了 其 他 技术 上 ， 比 如 SVM。 如 今 神经 网 络 东山 再 起 ， 刷 新 了 几乎 所 有 
领域 的 表现 纪录 , 在 很 多 问题 上 取得 了 胜利 。 但 谁 又 能 说 ,明天 不 会 有 一 种 新 方法 击败 神经 网 络 
呢 ? 是 否 神经 网 络 研究 的 进程 又 会 出 现 阻 灌 ， 等 不 来 任何 进展 ? 



















































































因此 ， 可 能 更 好 的 方式 是 预测 机 器 学 习 的 未 来 ， 而 不 是 单单 上 时 着 神经 网 络 。 还 有 个 原因 是 ， 
我 们 对 神经 网 络 的 理解 还 是 太 浅 了 。 为 何 神经 网 络 能 够 很 好 地 泛 化 ? 为 何在 学 习 了 大 规模 参数 后 ， 
采取 一 些 方法 可 以 避免 过 拟 合 ? 为 何 神经 网 络 中 随机 梯度 下 降 算 法 很 有 效 ? 当 数 据 集 扩 展 后 , 神 
经 网 络 又 能 达到 怎样 的 性 能 ? 如 果 ImageNet 的 数据 量 扩大 10 倍 , 神经 网 络 的 性 能 会 比 其 他 机 咒 
学 习 技术 好 多 少 ? 这 些 都 是 简单 却 根本 的 问题 。 当 前 ,我们 对 它们 都 知之 甚 少 。 因 此 ， 要 说 神经 
网 络 在 机 器 学 习 的 未 来 扮演 什么 样 的 角色 ， 这 很 难 回 答 。 


















































我 个 人 认为 深度 学 习 会 继续 发 展 。 学习 概念 的 层次 特性 、 构 建 多 层 抽 象 的 能 力 ， 看 起 来 能 从 
根本 上 解释 世界 , 这 并 不 是 说 未 来 深度 学 习 研究 人 员 的 想法 会 剧变 ,而 是 说 使 用 的 组 成 单元 、 网 
络 架构 或 者 学 习 算法 会 大 为 改变 。 如 果 我 们 不 再 将 最 终 的 系统 局 限于 神经 网 络 , 这 些 转变 将 会 更 
巨大 。 但 当前 人 们 仍 在 从 事 深度 学 习 的 研究 。 









































6.6.4 ”神经 网 络 和 深度 学 习 将 主导 人 工 智能 


本 书 着 重 于 使 用 神经 网 络 来 解决 具体 任务 ， 比 如 图 像 分 类 。 现 在 更 进一步 ,提问 : 通用 思维 
机 器 有 可 能 实现 吗 ?” 神经 网 络 和 深度 学 习 有 助 于 解决 通用 人 工 智能 的 问题 吗 ? 如 果 可 以 , 以 目前 
深度 学 习 领 域 的 发 展 速 度 , 通用 人 工 智 能 未 来 的 发 展 值得 期 待 吗 ? 认真 探讨 这 个 问题 可 能 需要 另 
写 一 本 书 。 不 过 ， 下 面 给 出 一 点 意见 ， 想 法 基于 康 威 定 律 
































在 设计 系统 时 ， 组 织 所 交付 方案 的 结构 将 不 可 避免 地 与 其 沟通 结构 一 致 。 


打 个 比方 , 按照 康 威 定律 , 波音 747 客机 的 设计 会 体现 在 设计 该 客机 时 波音 及 其 承包 商 的 组 
织 结构 。 简 单 举 例 , 假设 一 家 公司 开发 一 款 复 杂 的 软件 应 用 ,如 果 应 用 的 仪表 盘 会 集成 一 些 机 器 
学 习 算 法 ,设计 仪表 盘 的 人 员 最 好 咨询 一 下 公司 的 机 带 学 习 专 家 。 康 威 定律 描述 的 正 是 这 种 情形 ， 
可 能 更 为 宽泛 。 




































































第 一 次 听 到 康 威 定律 ， 很 多 人 的 反应 是 “ 嗯 ， 这 不 是 很 明显 吗 ” 或 者 “这 不 对 吧 ”， 下 面 分 
析 第 二 个 观点 。 还 是 以 波音 为 例 : 波音 的 会 计 部 门 会 体现 在 747 设计 的 哪里 呢 ? 他 们 的 清洁 部 门 
呢 ? 内 部 的 食品 供应 呢 ? 结果 就 是 这 些 部 门 可 能 不 会 显 式 地 体现 在 747 设计 的 任何 地 方 。 可 见 根 6 
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据 康 威 定律 ， 仅 仅 设 计 和 工程 部 门 会 明显 相关 。 








另 一 种 反对 声 认为 康 威 定律 很 肤浅 且 显 而 易 见 。 对 那些 常常 违背 康 威 定律 的 组 织 来 说 可 能 是 
如 此 , 但 我 不 这 么 认为 。 构 建新 产品 的 团队 通常 混 有 许多 无 法 胜任 的 员工 或 者 缺乏 具备 关键 能 
的 人 员 。 想 想 那 些 包 含 无 用 而 复杂 功能 的 产品 , 或 者 那些 明显 有 重大 缺陷 的 产品 , 例如 糟糕 的 用 
户 界面 。 这 两 种 情况 通常 都 是 因为 构建 好 产品 所 需 的 团队 组 织 和 实际 团队 之 间 的 不 匹配 产生 的 。 
康 威 定律 可 能 是 显而易见 的 ， 但 这 不 意味 着 可 以 随便 忽略 它 。 





























康 威 定律 应 用 于 系统 的 设计 和 工程 中 ， 我 们 需要 很 好 地 理解 系统 的 组 成 部 分 以 及 如 何 构建 。 
由 于 我 们 尚 不 知道 人 工 智 能 的 组 成 部 分 究竟 有 哪些 , 因此 康 威 定律 不 能 直接 应 用 于 人 工 智 能 的 开 
发 过 程 。 我 们 甚至 不 能 确定 哪些 是 最 根本 的 问题 。 换 言 之 ， 比 起 工程 问题 ， 人 工 智 能 更 是 科学 问 
题 。 想 象 开始 设计 波音 747， 而 不 了 解 喷气 式 发 动机 和 空气 动力 学 原理 ， 也 就 难以 确定 团队 需要 
哪 类 专家 。 正 如 Wernher von Braun 指出 的 :“ 基 础 研究 就 是 我 们 并 不 知道 自己 在 研究 些 什 么 。 
那 有 没有 康 威 定律 在 更 为 科学 而 非 工 程 的 问题 上 的 应 用 呢 ? 



























































为 了 回答 这 个 问题 , 可 以 回顾 一 下 医学 的 历史 。 在 早 些 时 候 , 医学 是 像 盖 伦 和 希 波 克 拉 底 这 
样 的 实践 者 的 领域 , 他 们 研究 整个 人 体 。 随 着 知识 的 增长 ， 人 类 不 得 不 实行 专业 分 工 ， 随 之 得 到 
了 很 多 深刻 "的 认 知 ， 比 如 疾病 的 微生物 理论 、 对 抗体 工作 机 制 的 理解 ， 又 或 者 对 心脏 、 肺 、 血 
管 的 了 解 , 所 有 这 些 知 识 形 成 了 完整 的 心血 管 疾病 知识 系统 。 这些 深 刻 的 理解 形成 了 诸如 流行 病 
学 、 免 疫 学 和 围绕 心血 管 疾病 系统 的 许多 交叉 领域 ， 所 以 医学 知识 结构 形成 了 医学 的 社会 结构 ， 
这 点 在 免疫 学 上 体现 得 尤为 明显 。 认识 到 免疫 系统 的 存在 和 它 具备 研究 价值 是 非凡 的 成 就 , 在 此 
基础 上 形成 了 完整 的 医学 领域 , 包含 专家 、 会 议 、 奖 项 , 等 等 。 它 围绕 在 某 种 不 可 见 的 事物 周围 ， 
可 以 说 ,这 并 非 一 个 清晰 的 概念 。 

































































这 种 特点 在 不 同 的 科学 分 文 上 也 广泛 存在 , 不 仅仅 是 医学 , 物理 学 、 数 学 、 化 学 等 领域 都 存 
在 类 似 的 情况 。 这 些 领域 开始 时 知识 呈现 为 一 团 ， 只 有 一 点 点 深刻 的 认识 , 早期 的 专家 可 以 掌握 
所 有 知识 。 随 着 时 间 的 推移 ， 这 种 独 团 状况 发 生 改变 , 很 多 深刻 的 新 思想 被 提出 ， 越 来 越 多 ， 多 
到 任何 人 都 难以 全 部 掌握 。 然 后 这 个 领域 的 社会 结构 就 开始 重新 组 织 , 围绕 着 这 些 思 想 分 离开 来 。 
如 今 所 看 到 的 就 是 领域 不 断 细 分 ， 子 领域 按照 一 种 复杂 、 递 归 、 自 指 的 社会 结构 进行 分 解 ， 而 这 
些 组 织 关 系 也 反映 了 那些 深刻 思想 之 间 的 联系 。 因 此 ,知识 结构 塑造 了 科学 的 社会 组 织 关 系 ， 而 
这 些 社会 组 织 关 系 反 过 来 也 会 限制 和 决定 发 展 的 方向 。 这 就 是 康 威 定律 在 科学 上 的 变 体 。 















































很 抱 鞭 反复 提 到 “深刻 ”， 我 没有 严格 定义 “深刻 ”"， 这 里 指 的 是 对 于 整个 研究 领域 来 说 的 基础 性 概念 和 想法 。 反 
向 传播 算法 和 疾病 的 微生物 理论 就 是 关于 深刻 的 很 好 的 例子 。 
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那么 ， 这 对 深度 学 习 或 者 人 工 智能 有 什么 影响 呢 ? 


人 工 智能 发 展 的 早期 存在 对 它 的 争论 ， 一 方 认为 :“ 这 并 不 是 很 难 ， 因 为 我 们 已 经 有 “超级 
武器 ”了 。” 反 对方 认为 :“ 有 超级 武器 还 不 够 ”深度 学 习 就 是 最 新 的 超级 武器 "， 之 前 是 逻辑 、 
Prolog 、 专 家 系统 ， 或 者 当时 最 先进 的 技术 。 这 些 论 点 存在 的 问题 是 没有 很 好 地 说 明 这 些 候 选 超 
级 武器 强 在 哪里 。 当 然 ,我 们 用 了 很 长 的 篇 幅 来 论述 深度 学 习 可 以 解决 极 具 挑 战 性 的 问题 。 这 听 
起 来 令 人 振奋 ， 前 景 光明 。 但 是 诸如 Prolog 、Eurisko 或 者 专家 系统 在 当年 也 是 如 此 。 所 以 ， 那 
些 观点 或 者 方法 看 似 很 有 前 景 , 但 这 并 没什么 用 。 我 们 如 何 区 分 深度 学 习 和 早期 方法 的 本 质 区 别 
呢 ? 康 威 定律 给 出 了 一 个 粗略 的 启发 式 度量 ， 即 评价 与 这 些 方法 相关 的 社会 关系 的 复杂 性 。 


这 就 引出 了 两 个 问题 。 第 一 , 根据 这 种 社会 复杂 性 度量 , 方法 集 和 深度 学 习 的 关联 度 如 何 ? 
第 二 ， 需 要 多 么 强大 的 理论 来 构建 通用 人 工 智能 ? 


对 于 第 一 个 问题 , 现在 看 深度 学 习 , 这 是 一 个 热火 朝天 却 又 相对 单一 的 领域 。 有 一 些 深刻 的 
思想 , 一 些 重要 的 学 术 会 议 , 其 中 一 些 会 议 之 间 存 在 很 多 重 倒 。 此 外 ,一 篇 篇 论文 在 不 断 地 改进 
和 完善 着 相同 的 基本 思想 : 使 用 随机 梯度 下 降 算法 (或 者 类 似 的 变 体 ) 来 优化 代价 函数 。 这 个 思 
想 非 常 成 功 , 但 现在 仍 未 看 到 子 领域 的 健康 发 展 ,大 家 都 在 研究 各 自 的 深刻 思想 , 将 深度 学 习 推 
向 不 同 的 方向 。 所 以 ,根据 社会 复杂 性 度量 ,简单 来 讲 ， 深 度 学 习 仍 然 是 一 个 相当 粗浅 的 领域 ， 
现在 还 是 可 以 掌握 该 领域 的 大 多 数 深刻 思想 的 。 































































































当然 ， 对 第 二 个 问题 的 答案 是 : 无 人 知晓 。 但 本 书 附录 讨论 了 一 些 已 有 的 观点 。 我 个 人 认为 ， 
构建 通用 人 工 知 能 需要 很 多 深刻 的 思想 。 康 威 定律 告诉 我 们 ,为 了 实现 这 样 的 目标 , 必须 有 很 多 
交叉 学 科 以 复杂 甚至 奇特 的 结构 出 现 , 这 种 结构 也 映射 出 了 那些 深刻 见解 之 间 的 关系 。 目前 在 神 
经 网 络 和 深度 学 习 的 使 用 中 , 这 样 的 社会 结构 还 未 出 现 。 我 认为 离 真 正 使 用 深度 学 习 来 开发 通用 
人 工 智能 至 少 还 需要 几 十 年 的 探索 。 


























诚然 ,我 付出 极 大 的 努力 所 建立 的 论断 是 探索 性 的 ， 并 不 十 分 确定 。 毫 无 疑问 ， 这 会 让 那些 
寄 希 望 于 获得 确定 答案 的 人 们 感到 失落 。 互 联网 上 的 许多 观点 显示 , 很 多 人 非常 笃定 ,对 人 工 智 
能 抱 以 非常 乐观 的 态度 ， 然 而 很 多 推 斯 缺乏 确凿 的 证 据 ， 根 本 站 不 住 脚 。 坦 白地 说 ， 现 在 如 此 乐 
观 还 为 时 尚 早 。 正 如 一 个 笑话 所 讲 ， 如 果 你 问 一 个 科学 家 还 要 多 久 才 会 有 新 发 现 ， 他 会 说 10 年 
(或 者 更 久 )， 其 实 真正 的 含义 就 是 “我 不 知道 "。 像 可 控 核 聚变 和 其 他 技术 一 样 ， 人 工 智 能 已 经 
有 60 多 年 一 直 被 认为 再 有 10 年 便 能 有 重大 发 现 。 另 外 , 深度 学 习 中 那些 强大 技术 的 边界 和 许多 
开放 的 根本 性 问题 还 有 竺 发现， 而 这 正 是 创新 的 机 遇 。 
































GD 有 趣 的 是 ， 这 些 往 往 不 是 由 知名 的 深度 学 习 专 家 提出 的 ， 他 们 对 此 相当 克制 。 








是 否 存在 关于 智能 的 
简单 算法 


























本 书 聚 焦 于 神经 网 络 的 实现 细节 :神经 网 络 的 工作 机 制 以 及 如 何 将 其 用 于 解决 模式 识别 问题 ， 
这 关乎 其 实际 应 用 。 我们 对 其 感 兴趣 的 另 一 个 原因 是 希望 有 一 天 神经 网 络 可 以 超越 这 些 基 础 的 模 
式 识别 问题 : 可 能 神经 网 络 或 者 其 他 基于 数字 计算 机 的 技术 ,最终 用 于 构建 可 以 媲美 甚至 超越 人 
类 智慧 的 思维 机 器 。 这 个 问题 已 经 远 远 超出 本 书 范畴 ， 或 者 说 人 类 目前 的 认 知 极限 ,但 是 猜想 也 
很 有 意思 的 。 






























































半 


其 实 已 经 有 很 多 关于 计算 机 最 终 能 和 否 达 到 人 类 智慧 程度 的 争论 ， 而 我 并 不 想 参与 其 中 。 相 比 
现在 的 争论 , 我 相信 人 类 水 平 的 智能 计算 机 是 有 可 能 实现 的 , 尽管 它 会 极其 复杂 ,， 远 非 当前 的 技 
术 所 能 达到 的 。 






































这 里 要 讨论 的 问题 是 , 是 否 存在 一 套 简单 的 原则 能 够 解释 智能 ?具体 而 言 ,简单 的 算法 能 否 
产生 智能 ? 








通过 简单 的 算法 得 到 智能 是 个 非常 大 胆 的 想法 , 有 点 过 于 乐观 了 。 很 多 人 和 凭 直觉 认为 智能 需 
要 相当 难以 简化 的 复杂 性 。 他 们 惊叹 于 人 类 思维 的 多 样 性 和 灵活 性 , 所 以 认定 简单 的 算法 无 法 产 
生 智 能 。 尽管 有 这 样 的 观点 , 但 我 不 认为 急于 下 结论 是 明智 的 做 法 。 简单 却 强大 的 思想 取代 复杂 
的 规律 来 解释 一 些 现象 ， 科 学 史上 不 乏 这 样 的 例子 。 

















以 早期 的 天 文学 为 例 ， 人 类 从 远古 时 代 就 区 分 了 天 空中 的 天 体 对 象 : 太阳 、 月 亮 、 行星 、 甘 
星 和 (其 他 ) 恒星 。 这 些 天 体 按照 不 同 的 方式 运动 : 恒星 缓慢 地 在 天 空运 转 ， 蔡 星 则 拖 着 尾巴 划 
过 天 空 ， 然 后 消失 得 无 影 无 踪 。 在 16 世纪 ， 只 有 盲目 乐观 的 人 才 认 为 所 有 天 体 的 运动 都 可 以 用 
一 套 简单 的 原理 解释 ， 但 是 在 17 世纪 ， 和 牛顿 提出 了 万 有 引力 理论 ， 不 仅 解 释 了 所 有 天 体 的 运转 
原理 ， 还 能 解释 地 球 上 的 测 汐 现象 和 抛物 运动 等 。16 世纪 育 目 的 乐观 主义 者 如 今 看 起 来 就 像 悲 
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观 主 义 者 ， 缺 乏 追 求 。 


当然 , 科学 史上 有 很 多 这 样 的 例子 。 例 如 构成 整个 世界 的 神秘 的 化 学 物质 ,被 门 捷 列 夫 的 元 
素 周 期 表 巧 妙 地 解释 了 , 而 这 些 规 律 又 能 被 更 简单 的 量子 力学 规律 解释 。 又 如 生物 界 中 大 多 的 复 
杂 性 和 多 样 性 产生 了 诸多 困扰 ， 最终 发 现 答案 是 自然 选择 作用 的 演化 规律 。 这 些 例子 都 表明 ， 如 
果 仅 仅 由 于 人 类 大 脑 ( 目前 人 类 大 脑 是 智能 的 最 佳 体现 ) 表现 出 复杂 的 功能 便 断 定 关 于 智能 的 简 
单 解释 不 成 立 ， 那 么 这 其 实 是 不 明智 的 做 法 ”。 


然而 , 尽管 有 这 些 正面 的 例子 , 但 智能 只 能 由 大 量 基本 、 分 离 的 机 制 来 解释 在 逻辑 上 也 是 可 
能 的 。 比 如 对 于 人 类 大 脑 , 这 些 机 制 可 能 是 在 物种 演化 历程 中 对 各 种 选择 压力 的 反应 而 导致 的 演 
化 结果 。 如 果 这 个 观点 是 正确 的 , 那么 智能 实际 上 就 应 该 包含 无 法 简化 的 复杂 性 ,也 不 存在 关于 
智能 的 简单 算法 。 


这 两 种 观点 哪 种 正确 呢 ? 


为 了 深入 探讨 这 个 问题 , 再 提 一 个 密切 相关 的 问题 : 是 否 存在 关于 人 类 大 脑 工 作 机 制 的 简单 
解释 ? 首先 看 一 下 量化 人 类 大 脑 复杂 性 的 方式 。 第 一 个 观点 是 连接 组 学 。 这 套 理论 是 关于 原始 连 
接 的 : 人 类 大 脑 中 有 多 少 神经 元 ， 多 少 神经 胶 质 细 胞 ， 神 经 元 之 间 有 多 少 连接 。 你 之 前 可 能 听 过 
这 些 数字 : 人 类 大 脑 包含 百 亿 级 的 神经 元 , 千 亿 级 的 神经 胶 质 细胞 ， 百 兆 级 的 连接 。 这 些 数字 都 
是 极其 庞大 的 天 文 数字 。 如 果 必 须 了 解 所 有 这 些 连接 的 细节 且 不 论 神经 元 和 神经 胶 质 细胞 ) 才 
能 理解 人 类 大 脑 的 工作 机 制 ， 那 么 肯定 得 不 到 关于 智能 的 简单 算法 。 


第 二 个 更 乐观 的 观点 来 自分 子 生 物 学 对 人 类 大 脑 的 探究 : 需要 多 少 基因 信息 来 描述 人 类 大 脑 
的 构造 ? 为 了 解答 这 个 问题 ， 首 先 考虑 人 类 和 黑猩猩 的 基因 差异 。 你 可 能 听 过 “黑猩猩 和 人 类 
的 相似 度 为 98%” 这 样 的 话 。 类 似 的 说 法 非常 杂乱 ， 也 有 人 说 是 95% 或 者 99%。 这 样 的 表述 差 
异 是 因为 比较 的 是 人 类 和 黑猩猩 基因 的 样本 而 非 整 体 的 基因 估计 结果 。 然 而 2007 年 ， 黑 猩猩 的 
所 有 基因 被 序列 化 了 ， 现 在 我 们 知道 人 类 和 黑猩猩 的 DNA 有 1.25 亿 个 不 同 的 DNA 碱 基 对 ， 而 碱 
基 对 总 数 约 为 30 亿 个 ， 所 以 说 黑猩猩 和 人 类 的 相似 度 为 96% (1.25 亿 /30 亿 约 等 于 0.04166666667 ) 
更 恰当 。 








































































































































































































那么 1.25 亿 个 不 同 的 碱 基 对 中 究竟 有 多 少 信 息 ? 每 个 碱 基 对 有 4 种 标记 可 能 一 一 基因 代码 ( A、 
C、G 和 T)， 所 以 每 个 碱 基 对 可 以 使 用 两 比特 的 信息 进行 描述 一 一 2 二 4，1.25 亿 个 碱 基 对 就 相当 
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附录 假设 智能 计算 机 的 能 力 不 低 于 人 类 的 思维 能 力 ， 所 以 会 将 “是 否 存在 智能 的 简单 算法 ”等 同 于 “是 否 
单 的 算法 , 其 思考 能 力 相当 于 人 类 大 脑 ”然而 值得 注意 的 是 , 其 实 也 可 能 存在 无 法 归 入 人 类 思维 的 智能 形 
这 些 智能 会 在 一 些 方面 超过 人 类 思维 。 


























如 或 六 
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于 有 2.5 亿 比特 的 信息 ， 这 就 是 人 类 和 黑猩猩 的 基因 差异 ! 





当然 ,这 2.5 亿 比 特 表示 人 类 和 黑猩猩 之 间 的 所 有 基因 差异 ， 而 我 们 只 对 有 关 大 脑 的 那 部 分 
感 兴趣 , 但 没有 人 知道 哪 一 部 分 的 基因 差异 能 够 解释 大 脑 部 分 。 这 里 不 妨 假设 有 一 半 的 比特 与 大 
脑 有 关 ， 即 总 共 1.25 亿 比 特 。 





1.25 亿 比 特 是 非常 大 的 数字 。 下 面 用 人 类 熟悉 的 方式 感知 一 下 这 个 数字 的 大 小 ， 比 如 看 看 有 
多 少 等 量 的 英文 文本 。 英 文 文本 的 信息 是 一 个 字母 一 比特 。 英 文 有 26 个 字母 ， 看 起 来 很 少 , 但 
英文 文本 中 存在 大 量 元 余 。 当 然 , 你 也 可 以 争论 基因 数据 也 是 宛 余 的 ， 所 以 每 个 碱 基 对 有 两 比特 
信息 的 假设 也 是 高 佑 的 ,但 是 这 里 忽略 这 些 信息 , 因为 最 差 情 况 是 高 估 了 人 类 大 脑 基因 的 复杂 性 。 
基于 这 些 假设 ， 人 类 大 脑 和 黑猩猩 大 脑 的 基因 差异 约 等 于 1.25 亿 个 字母 ， 或 者 2500 万 个 英文 单 
词 ， 这 是 King James 版 《圣经 》 的 30 售 。 
















































































这 是 庞大 的 信息 , 但 仍 在 人 类 的 理解 范围 内 。 可 能 没有 人 能 单独 理解 所 有 基因 代码 , 但 是 一 
群 人 通过 合理 分 工 能 够 集体 性 地 掌握 这 些 内 容 。 尽 管 信 息 量 很 庞大 ， 但 这 和 描述 百 亿 级 神经 元 、 
千 亿 级 神经 胶 质 细胞 和 百 兆 级 连接 所 需 的 信息 相 比 其 是 微小 。 即 便 使 用 简单 粗略 的 描述 ， 比 如 用 
10 个 浮 点 数 来 描述 每 个 连接 ,也 需要 大 概 70x10” 比特， 这 意味 着 基因 描述 的 复杂 性 是 人 类 大 脑 
内 连接 数 的 原始 描述 的 5 亿 分 之 一 。 



































前 面 的 例子 表明 基因 不 可 能 包含 关于 神经 连接 细节 的 描述 , 因此 需要 确立 有 关 人 类 大 脑 的 宽 
泛 的 构造 和 基本 原理 ， 而 这 个 构造 和 原理 能 让 人 类 产生 智能 。 当 然 , 存在 一 些 附 加 条 件 一 一 儿童 
的 成 长 需要 健康 的 环境 和 良好 的 营养 才能 促进 智力 发 展 。 假设 人 类 成 长 于 理想 的 环境 中 , 健康 的 
人 类 将 拥有 非凡 的 智慧 。 某 种 意义 上 ， 人 类 基因 中 的 信息 包含 了 思维 的 本 质 。 另 外 ,这 些 基因 信 
息 中 包含 的 原理 似乎 可 以 内 化 于 人 类 集体 掌握 知识 的 能 力 中 。 




















前 面 所 有 的 数字 都 只 是 粗略 的 估计 ， 很 可 能 1.25 亿 比 特 是 高 估 了 ， 也 可 能 某 些 更 简洁 的 核 
心 原理 存在 于 人 类 思维 之 中 , 可 能 大 多 数 比 特 仅仅 是 细节 上 的 微调 ,也 可 能 前 面 计算 这 些 数字 时 
过 于 保守 。 显 然 ， 如果 推 断 是 正确 的 ， 那么 很 好 ! 对 于 当前 的 目的 ,关键 是 明白 人 类 大 脑 的 构造 
是 复杂 的 , 但 是 比 基 于 人 类 大 脑 的 连接 去 考虑 问题 简单 得 多 。 从 分 子 生物 学 的 角度 看 人 类 大 脑 ， 
可 以 想象 人 类 日 后 有 望 理 解 自 己 大 脑 内 部 的 工作 原理 。 


















































前 面 忽略 了 1.25 亿 比 特 仅仅 量化 了 人 类 大 脑 和 黑猩猩 大 脑 的 基因 差异 ,但 并 不 是 说 人 类 大 
脑 的 功能 仅仅 取决 于 这 1.25 亿 比 特 。 黑 猩猩 于 其 自身 而 言 也 是 非 几 的 思考 者 。 或 许 智能 的 关键 
是 黑猩猩 和 人 类 在 思考 能 力 ( 和 基因 ) 上 的 共同 部 分 。 如 果 这 个 观点 正确 , 那么 人 类 大 脑 可 能 就 
是 黑猩猩 大 脑 的 微小 升级 , 至 少 是 内 部 构造 复杂 性 上 的 升级 。 兽 经 的 人 类 沙文 主义 就 人 类 独特 性 
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认为 这 是 难以 置信 的 : 黑猩猩 和 人 类 的 基因 大 约 在 500 万 年 前 分 化 , 这 在 演化 的 时 间 轴 上 只 是 很 


小 的 一 段 。 但是, 基于 更 有 说 服 力 的 观点 
测 关 于 人 类 思维 ， 最 关键 的 原理 存在 于 那 
分 基因 。 





， 可 以 看 出 人 类 沙文 主义 者 的 论调 是 如 何 产 生 的 : 我 猜 

















1.25 亿 比 特 上 ， 而 不 是 人 类 和 黑猩猩 共同 拥有 的 那 部 














采纳 分 子 生物 学 对 大 脑 的 观点 能 将 问题 降低 9 个 数量 级 的 复杂 度 , 尽管 令 人 振奋 , 但 这 未 声 
明 关于 智能 的 简单 算法 是 否 可 能 。 复 杂 性 能 够 进一步 简化 吗 ? 更 确切 地 说 , 能 否 回答 “简单 算法 











能 否 产生 智能 ”这 个 问题 ? 


然而 现在 还 没有 足够 有 力 的 证 据 来 解答 这 个 问题 。 下 面 给 出 一 些 已 有 的 证 据 , 以 一 种 简要 且 























不 完备 的 概览 ， 而 不 是 深入 完整 的 研究 综述 来 谈 谈 近期 的 研究 进展 。 


























能 够 证 明 可 能 存在 关于 智能 的 简单 算法 的 证 据 之 一 是 2000 年 4 月 《自然 》 杂 志 上 刊登 的 实 


验 报 告 : 由 Mriganka Sur 领导 的 科学 小 组 














“ 重 连 ”了 新 生 雪 蟹 的 大 脑 。 来 自 雪 貂 眼 睛 的 信号 通常 





会 传递 到 脑 中 的 视觉 皮层 处 , 但 是 对 于 这 些 雪 貂 , 科学 家 将 它们 的 眼睛 接收 到 的 视觉 信号 重新 传 


递 到 了 听觉 皮层 ， 即 脑 中 负责 听觉 的 那个 





区 域 。 


为 了 理解 当时 发 生 了 什么 ， 先 介绍 一 点 关于 视觉 皮层 的 知识 。 视 觉 皮层 包含 许多 朝向 柱 
( orientation column )， 这 其 实 是 一 块 一 块 的 神经 元 ， 每 块 对 来 自 某 个 方向 的 视觉 刺激 有 响应 。 可 























以 将 朝向 柱 看 作 微小 的 方向 检测 絮 ， 当 某 个 方向 亮 起 一 道光 时 ,， 对 应 的 朝向 柱 就 会 被 激活 。 如 果 
移 走 光线 , 不 同 的 朝向 柱 就 会 被 激活 。 视 觉 皮 层 中 最 重要 的 高 级 结构 是 方位 地 图 (orientation map )， 





它 展 示 了 朝向 柱 的 分 布 状 况 。 






































科学 家 发 现 ， 当 来 自 雪 貂 眼 睛 的 视觉 信号 重 定向 传递 到 听觉 皮层 时 ， 听 觉 皮层 发 生 了 变化 ， 
其 中 开始 出 现 朝 向 柱 和 方位 地 图 。 这 个 方位 地 图 和 正常 的 视觉 皮层 中 的 方位 地 图 相 比 更 为 无 序 ， 
但 无 疑 是 相似 的 。 男 外 ,科学 家 通过 测试 不 同方 向 的 光线 刺激 来 研究 雪 貂 对 视觉 刺激 的 反应 机 制 。 




















这 些 测 试 表明 雪 貂 通过 听觉 皮层 仍 可 以 学 会 “看 ” 至 少 是 以 一 种 初级 的 方式 在 学 习 。 





这 相当 令 人 吃惊 。 它 表明 大 脑 的 不 同 部 分 存在 共同 的 原理 去 学 习 对 数据 做 出 反应 。 这 种 共性 
支持 了 “简单 的 原理 能 产生 智能 ”这 一 猜想 , 但 这 点 成 果 无 法 确保 万 事 大 吉 。 行为 测试 仅仅 对 视 
觉 进 行 了 粗略 的 验证 ， 而 且 我 们 也 没 法 问 雪 蟹 它们 是 否 “ 学 会 看 ”了 。 因 此 实验 并 没有 证 明 重 连 
的 听觉 皮层 能 给 予 雪 蟹 精 确 的 视觉 体验 , 而 只 是 用 有 限 的 证 据 表 明 大 脑 的 不 同 部 分 可 能 以 共同 的 














原理 进行 学 习 。 





















































怎样 才 算 是 “智能 由 简单 算法 产生 ”的 证 据 ? 有 些 证 据 源 自 进 化 心理 学 和 神经 解剖 学 。20 世 
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纪 60 年 代 ， 进 化 心理 学 家 就 发 现 了 众多 的 人 类 一 般 性 概念 一 一 在 抚育 及 所 有 人 类 复杂 行为 中 体 
现 出 来 的 共性 。 这 些 人 类 一 般 性 概念 包括 音乐 、 跳 舞 ， 以 及 非常 复杂 的 语言 结构 ， 比 如 禁忌 语 ， 
以 及 和 动词 一 样 存在 基础 结构 的 代词 。 作 为 对 这 些 结论 的 补充 , 神经 解剖 学 的 大 量 证 据 表 明 人 类 
的 很 多 行为 由 大 脑 的 特定 区 域 决定 ， 而 这 些 区 域 在 所 有 人 类 身上 看 起 来 都 是 相似 的 。 总 而 言 之 ， 
这 些 发 现 表 明 很 多 特殊 行为 其 实 和 大 脑 的 特定 部 分 相关 联 。 












































某 些 人 根据 这 些 结果 推断 : 对 于 大 脑 的 不 同 功 能 , 需要 有 不 同 的 解释 , 所 以 大 脑 功能 存在 不 可 
简化 的 复杂 性 ， 这 也 使 得 不 太 可 能 为 大 脑 运 作 找 出 一 个 简单 的 解释 (或 者 说 简单 的 智能 算法 )， 
例如 著名 的 人 工 智能 科学 家 Marvin Minsky 就 持 有 这 样 的 观点 。 20 世纪 七 八 十 年 代 , Minsky 提出 
了 心智 社会 理论 , 其 基本 观点 是 人 类 智能 是 独立 而 简单 的 (不 过 非常 不 同 的 ) 计算 过 程 一 一 他 称 
之 为 智能 体 ( agent ) 一 一 的 社会 化 结果 。 在 描述 该 理论 的 书 " 中 , Minsky 将 自己 的 观察 总 结 如 下 : 
































什么 让 我 们 变 得 智能 ?其 实 没 有 奥秘 。 智能 从 我 们 广泛 的 多 样 性 中 诞生 , 而 非 从 任 
一 简单 、 完 美的 原理 中 。 




















在 回应 对 该 书 的 评论 时 ，Minsky 详细 解释 了 自己 的 写作 动机 ， 他 基于 神经 解剖 学 和 进化 心 
理学 给 出 了 一 个 类 似 于 上 面 一 段 话 的 观点 : 
现在 我 们 知道 人 类 大 脑 由 数 百 个 区 域 和 基底 核 构 成 , 每 个 都 有 不 同 的 构成 元 素 和 排 
列 方 式 , 其 中 很 多 是 和 展现 出 来 的 不 同 的 精神 活动 相关 联 的 。 现代 知识 表明 很 多 传统 的 
常用 术语 (比如 “智能 ”或 者 “理解 ”) 描述 的 现象 实际 上 牵涉 许多 复杂 的 运作 机 制 。 

















持 有 这 种 观点 的 科学 家 当然 不 止 Minsky, 这 里 只 是 将 其 作为 代表 。 这 个 观点 本 身 很 有 意思 ， 
是 不 要 太 过 相信 它 。 尽 管 人 类 大 脑 的 确 包 含 不 同 的 区 域 , 各 有 不 同 的 功能 , 但 也 不 能 断言 对 于 
大 脑 功能 不 存在 简单 的 解释 ,因为 很 可 能 这 些 不 同 的 构造 其 实 有 着 共同 的 原理 , 实际 上 也 可 以 像 
彗星 、 行 星 、 恒 星 的 运 动 都 是 遵循 引力 一 样 ， 而 Minsky 和 其 他 人 都 不 能 反驳 这 样 的 统一 观点 。 





酝 


























我 个 人 偏向 于 存在 对 于 智能 的 简单 算法 。 我 认为 这 是 一 个 积极 的 想法 , 所 以 与 前 面 那 个 未 有 
定论 的 观点 相 比 更 喜欢 这 个 。 在 研究 领域 , 未 被 验证 的 积极 观点 比 之 消极 观点 通常 可 以 催生 出 更 
多 结果 , 因为 乐观 主义 者 勇于 开拓 和 尝试 新 事物 。 这 就 是 发 现 之 路 ,即使 最 终 发 现 结果 与 刚 开 始 
期 望 的 不 同 ， 而 翡 观 主义 者 可 能 会 在 某 种 狭隘 的 感觉 下 更 正确 ， 但 是 发 现 也 会 较 少 。 



































这 种 观点 和 人 们 通常 评价 想法 的 方式 ( 尝试 判断 对 错 ) 形成 了 鲜明 对 比 。 这 种 传统 策略 指向 
的 是 日 常 研究 的 流程 细节 , 却 不 适用 于 评判 大 胆 的 想法 ， 比 如 确定 整个 研究 项 目的 方向 。 有 时 只 

















J 请 参阅 《心智 社会 》 一 书 。 
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有 关于 某 个 想法 正确 与 否 的 薄弱 证 据 。 我 们 可 以 不 认同 存在 简单 算法 这 种 想法 ,而 花费 时 间 去 人 研 
究 已 有 的 证 据 ,， 尝试 判断 什么 是 正确 的 ; 或 者 可 以 选择 少 有 人 走 的 路 ， 然 后 致力 于 证 实 大 胆 的 想 
法 ， 这 虽然 不 能 保证 成 功 ， 却 是 增强 理解 的 途径 。 




















总 而 言 之 , 按照 最 乐观 的 说 法 ,我 不 相信 人 类 会 找到 关于 智能 的 简单 算法 。 具 体 而 言 ， 我 不 
相信 我 们 最 终 能 通过 简短 的 〈 假设 有 上 千 行 ) Python (或 者 C、Lisp 等 ) 程序 实现 人 工 智能 ,我 
也 不 认为 最 终 能 借 由 简单 的 神经 网 络 实现 人 工 智 能 。 但 我 相信 , 这 样 的 程序 或 者 神经 网 络 值得 不 
懈 探 索 。 这 是 获得 见解 的 途径 ， 通 过 追求 这 种 进步 ,将 来 某 天 有 望 达 到 足够 深 的 理解 ， 从 而 设计 
出 更 高 级 的 智能 网 络 。 因 此 ， 认 为 存在 简单 的 智能 算法 是 值得 的 。 


















































在 20 世纪 80 年 代 , 杰出 的 数学 家 和 计算 机 科学 家 Jack Schwartz 受 邀 参加 一 场 人 工 智 能 倡导 
者 和 怀疑 者 之 间 的 辩论 。 辩 论 场面 最 后 失控 ,倡导 者 一 直 鼓 吹 研究 进展 非常 停 人 ,怀疑 者 则 非常 
悲观 ， 认 为 人 工 智能 完全 不 可 能 实现 。Schwartz 保持 超然 的 态度 ,在 讨论 升温 时 依然 安静 。 在 辩 
论 间 际 ， 他 被 问 起 有 什么 看 法 。Schwartz 说 道 :“ 嗯 ， 部 分 研究 进展 需要 有 数 百 个 诺 贝 尔 奖 作为 
铺垫 。” 我 很 认同 这 个 观点 。 人 工 智 能 的 关键 是 简单 而 强大 的 想法 ， 我 们 能 够 也 应 该 乐观 地 去 探 
索 这 些 想法 。 现 在 正 需要 很 多 这 样 的 想法 ,我 们 仍然 有 很 长 的 路 要 走 ! 
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李 航 字 节 跳动 科技 有 限 公司 人 工 智能 实验 室 总 监 、ACL 会 士 、IEEE 会 寸 、ACM 杰 出 科学 家 
这 是 一 本 非常 好 的 深度 学 习 入 门 书 ， 相 信 一 定 会 得 到 大 家 的 喜爱 。 


蕊 少 平 清华 大 学 计算 机 系 教授 、 博 士 生 导师 
这 本 书 从 神经 网 络 和 深度 学 习 的 基本 原理 入 手 ， 详 细 地 解释 了 神经 网 络 和 深度 学 习 的 核心 概念 ， 兼 顾 理 
论 和 实践 ， 是 深入 了 解 神经 网 络 和 深度 学 习 的 一 本 好 书 。 











车 万 翔 哈尔滨 工业 大 学 计算 机 科学 与 技术 学 院 信息 检索 研究 中 心 教授 、 博 士 生 导师 
我 从 看 完 第 1 章 开 始 就 被 其 深入 浅 出 的 文字 以 及 清晰 的 代码 实现 所 吸引 。 我 相信 ， 这 本 书 的 正式 出 版 一 
定 会 让 更 多 的 读者 受益 。 


俞 扬 南京 大 学 人 工 智能 学 院 教授 、 博 士 生 导 师 
这 是 一 本 独特 且 有 趣 的 神经 网 络 入 门 书 ， 其 细致 程 度 基本 上 做 到 了 “手把手 ”教学 ， 非 常 适合 初学 者 。 
我 期 待 这 本 书 能 照 这 更 多 人 的 人 工 智能 之 路 。 


邱 锡 鹏 复 大 学 计算 机 学 院 教 授 、 博 士 生 导师 
这 是 一 位 物理 学 家 写 的 机 器 学 习 书 ， 内 容 清晰 易 懂 ， 对 神经 网 络 的 描述 也 直观 形象 ， 非 常 适合 用 来 入 门 
神经 网 络 和 深度 学 习 。 


张 伟 桶 上 海 交通 大 学 计算 机 科学 与 工程 系 副教授 、 博 士 生 导师 
这 是 一 本 关于 神经 网 络 和 深度 学 习 的 “亲近 ” 易 读 的 书 ， 它 将 带领 你 轻松 入 门人 工 智能 世界 。 


王 吴 奋 同济 大 学 特聘 研究 员 、OpenKG 联 合 创始 人 
这 本 不 可 多 得 的 好 书 通过 丰富 的 示例 和 代码 实践 做 到 了 知行 合 一 。 


徐 涵 华为 欧洲 研究 院 高 级 战略 规划 经 理 
这 本 量子 物理 学 家 笔下 的 好 书 以 一 个 个 生动 的 实例 驱动 你 恨不得 一 口气 读 完 | 
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